Научная статья на тему 'Система автоматической категоризации графического контента'

Система автоматической категоризации графического контента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
243
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ИЗОБРАЖЕНИЙ / IMAGE PROCESSING / КЛЮЧЕВЫЕ ТОЧКИ / KEY POINTS / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / COMPUTER VISION / МНОГОКЛАССОВАЯ КЛАССИФИКАЦИЯ / MULTICLASS CLASSIFICATION / МАШИННОЕ ОБУЧЕНИЕ / MACHINE LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пучило Татьяна Николаевна, Щегрикович Дмитрий Васильевич

Целью работы является разработка автоматической системы категоризации графического контента, применимой к реалистичным изображениям в реальном времени. Для достижения поставленной цели решаются такие задачи, как сравнительный анализ методов поиска и описания особых точек на изображениях, определение визуальных слов методом «Мешок визуальных слов», сравнительный анализ методов машинного обучения для решения задачи многоклассовой классификации, используется язык Python. Производится настройка параметров выбранного метода и разрабатывается программное решение в виде веб-приложения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пучило Татьяна Николаевна, Щегрикович Дмитрий Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система автоматической категоризации графического контента»

одинаковые. Значения деформаций растяжения и сжатия, нормальных и касательных напряжений развиваются сообразно и их значения близки.

Максимальные и минимальные касательные напряжения по осям X и Y возникают во взаимно перпендикулярных плоскостях стенки резервуара. Значения касательных напряжений днища и покрытия значительно меньше, чем напряжения стенки резервуара.

Наибольшие значения напряжений развиваются в местах примыкания днища и покрытия к стенке, при этом они распологаются вблизи соединения кромок подкрепляющих панелей к основной оболочке.

У моделей с усиленными вертикальными стенками вдоль образующих элементами в виде равнополочных гнутых швеллеров и С-образных гнутых профилей абсолютные значения деформаций по осям X и Yв два раза больше чем у других моделях, что очевидно является следствием тонкости профилей.

3. От совокупного воздействия всех факторов происходит полная потеря устойчивости всех подкрепляющих панелей, а в основной оболочки происходит локальные потери устойчивости в виде выпучивания стенки через определенные расстояния.

4. С учетом технико-экономических условий изготовления, стоимости «в деле» рекомендуется применение подкрепляющих элементов в виде цилиндрических панелей.

Список литературы /References

1. Каплун А.Б., Морозов Е.М., Олферьева М.А. ANSYS в руках инженера.

Практическое руководство. М.: Наука, 2003. 134 с.

2. ШНК 2.03.05-13.Стальные конструкции нормы проектирования.

Госархитектстрой. Ташкент, AQATM, 2013. 344 с.

СИСТЕМА АВТОМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ

ГРАФИЧЕСКОГО КОНТЕНТА 1 2 Пучило Т.Н. , Щегрикович Д.В.

Email: РисИу1о17128@8с1еп1:1Пс1ех1:.ги

1 Пучило Татьяна Николаевна - магистрант; 2Щегрикович Дмитрий Васильевич - кандидат физико-математических наук, доцент, кафедра интеллектуальных систем, факультет радиофизики и компьютерных технологий, Белорусский государственный университет, г. Минск, Республика Беларусь

Аннотация: целью работы является разработка автоматической системы категоризации графического контента, применимой к реалистичным изображениям в реальном времени. Для достижения поставленной цели решаются такие задачи, как сравнительный анализ методов поиска и описания особых точек на изображениях, определение визуальных слов методом «Мешок визуальных слов», сравнительный анализ методов машинного обучения для решения задачи многоклассовой классификации, используется язык Python. Производится настройка параметров выбранного метода и разрабатывается программное решение в виде веб-приложения.

Ключевые слова: обработка изображений, ключевые точки, компьютерное зрение, многоклассовая классификация, машинное обучение.

A SYSTEM OF THE AUTOMATIC CATEGORISATION OF GRAPHIC CONTENTS Puchylo T.N.1, Shchehrykovich D.V.2

1Puchylo Tatiana Nikolaevna - Graduate Student;

2Shchehrykovich Dmitry Vasilyevich - PhD in Physics and Mathematics, Associate Professor, INTELLIGENT SYSTEMS DEPARTMENT, FACULTY OFRADIOPHYSICS AND COMPUTER TECHNOLOGIES, BELARUSIAN STATE UNIVERSITY, MINSK, REPUBLIC OF BELARUS

Abstract: the goal of the work is to develop an automatic system for categorizing graphic content that can be apply to realistic images in real time. This has been done by using the Python language and the detection and description of key points of images methods comparison. Visual words were defined with the help of "Bag of Visual Words" method. The parameters of the selected method of machine learning with the help of the comparison of methods for multi-class classification were tuned and a software solution was developed in the form of a web application.

Keywords: image processing, key points, computer vision, multi-class classification, machine learning.

УДК 331.225.3 DOI: 10.20861/2304-2338-2018-128-001

Низкое качество категоризации изображений в существующих поисковых системах изображений (далее - ПСИ), таких как «Freepik.com» и «Shutterstock.com», является причиной выдачи нерелевантного контента пользователям. Проблемами при разработке системы категоризации изображений являются существование множества изображений, объектов и их категорий, охватить которые обучающему алгоритму невозможно; существование неоднозначных по смыслу изображений; а также наличие проблемы «Семантического разрыва» - разницы в представлении изображения для машины и человека. Целью данной работы является разработка автоматической системы категоризации графического контента, применимой к реальным изображениям, для улучшения количественной и качественной составляющей массивов категоризированных изображений, присутствующих в открытом доступе.

1. Исходная выборка

Для генерации выборки изображений, являющейся результатом выдачи ПСИ, был выбран портал «Freepik.com», представляющий собой одну из ведущих систем по выдаче бесплатных высококачественных изображений. Для сбора изображений был разработан алгоритм с использованием языка Python и следующих библиотек: «Selenium», предназначенной для автоматизированного тестирования; «BeautifulSoup», предназначенной для получения данных из HTML и XML-файлов; и «Requests» - для работы с HTTP запросами. Полученная выборка «Freepik» характеризовалась следующими свойствами:

• 8 категорий изображений, распределение количества изображений в которых представлено на рисунке 1.

• Размеры изображений варьируются от 200 на 300 пикселей до более, чем 2000 на 2000 пикселей.

Рис. 1. Распределение количества изображений в категориях в исходной коллекции

изображений

2. Признаковое описание изображений

Существующие методы решения задачи категоризации изображений подразумевают представление изображения x в виде вектора признаков (далее - ВП) f(x), - функции, результатом которой является точка в пространстве высокой размерности. Соответствующим образом в данном пространстве представляются и другие изображения, часть которых принадлежит той же категории, что изображение x, а часть - другой (в случае бинарной категоризации). Решение задачи заключается в обучении классификатора способности разделять данное множество таким образом, чтобы при обработке нового входного ВП в рассматриваемом пространстве, он определял его принадлежность (или вероятность принадлежности) верной категории. Таким образом, существующие алгоритмы категоризации изображений оперируют ВП, разделяемыми с использованием классификатора [1].

В данной работе ВП сроится не по всему изображению в целом, а по особым точкам на изображении (далее - ОТ) [2, 4]. ОТ на изображении считается точка (пиксель) с характерной окрестностью - т.е. отличающиеся своей окрестностью от всех соседних точек. Для описания ОТ ВП существует методы их выделения (детекторы ОТ) и описания (дескрипторы ОТ). Для выбора оптимальной композиции детектора и дескриптора ОТ был проведен сравнительный анализ существующих методов: SURF, SIFT, ORB, комбинация детектора FAST и дескриптора SIFT, комбинация детектора FAST и дескриптора SURF, AKAZE на коллекции изображений 3 категорий. Для проведения анализа использовался метод «Мешок визуальных слов» [3] (выделение всех ОТ на изображениях, кластеризация их на заданное количество визуальных слов (далее - ВС), присвоение каждому изображению соответствующего ВП, каждый элемент которого соответствует вхождению либо не вхождению ВС в рассматриваемое изображение), а для решения задачи многоклассовой классификации - Метод опорных векторов с оптимизированными параметрами [6]. Качество работы метода оценивалось помощью кросс-валидации на 5 разбиениях. Результаты анализа приведены в таблице 1. Для построения ВП изображения была выбрана комбинация детектора «FAST» ОТ [8] и дескриптора ОТ «SURF» [7].

Таблица 1. Результаты сравнительного анализа существующих методов детектирования

и описания ОТ

Метод Время на обр-ку изображения (сек) Точность Полнота f-мера Длина ВП

Самолет Женщина Пицца Среднее Самолет Женщина Пицца Среднее Самолет Женщина Пицца Среднее

SURF 0.078 0,57 VO О1 0,57 0,58 0,57 0,67 0,57 0,63 0,57 0,63 0,57 0,59 ^t- 'чО

SIFT 0.064 0,33 0,71 0,36 0,47 0,29 0,56 о1 0,45 0,31 0,63 0,42 0,45 8 CS

ORB 0.004 0,72 0,67 0,56 0,65 0,43 с* о1 0,62 0,65 0,54 0,77 0,59 0,63 8 CS

FAST +SIFT 0.121 0,68 0,76 0,72 0,72 0,71 0,89 0,75 0,78 о1 0,82 0,74 0,75 8 CS

FAST +SUR F 0.134 0,75 0,78 0,68 0,72 0,68 о\ ® 0,72 0,77 ® 0,84 ® 0,74 TT vo

AKAZ E 0.037 о" 0,58 0,54 0,54 0,51 0,64 0,55 0,57 0,51 0,61 0,55 0,55 ^t- 'чО

3. Метод машинного обучения «Градиентный бустинг деревьев решений»

Математическая формулировка задачи категоризации графического контента звучит следующим образом. Пусть X - пространство признакового описания (далее -ПО) изображений, У - метки классов у1 Е { 1 ,2 ,. . .,С} , к которым относятся изображения, описываемые векторами ПО. Дана обучающая выборка (хх,ух), ..., (хт , у т). Задача заключается в том, чтобы построить классификатор - функцию : X — У, сопоставляющую категорию у произвольному изображению х. Исходя из того, что некоторые изображения содержат несколько объектов, результатом работы модели категоризации должна быть вероятность принадлежности изображения категориям. Поэтому, классификатор должен оценивать Р (уг | - вероятности принадлежности объекта категории. Вектора ПО изображений представляют собой

вектор вхождений ВС, полученных применением к изображению методов SURF и FAST для обнаружения и описания ОТ, которые имеют размерность, равную 64 [7, 8]. Размер словаря ВС устанавливается вручную, в данной работе были проведены сравнения размеров в 10, 25 и 50 ВС. Для выбора метода МО для решения задачи многоклассовой классификации был проведен СА следующих методов: Метод опорных векторов, Случайный лес, Экстремально случайные деревья, Градиентный бустинг деревьев решений (далее - ДР), Адаптивный бустинг ДР, Экстремально градиентный бустинг ДР в реализации «XGBoost» [10]. Результаты сравнительного анализа приведены в таблице 2. Лучший результат показали ансамблевые методы, в частности Градиентный бустинг ДР в реализации «XGBoost», который в итоге был выбран для создания системы категоризации. Как и все ансамблиевые алгоритмы, он является мета-алгоритмом, и строит композицию слабых классификаторов. В качестве слабых классификаторов используются ДР, так как они быстро обучаются и их можно легко переобучить, что является определяющим фактором для процесса бустинга [9]. Также, было отмечено, что точность классификации прямо пропорционально зависит от величины вектора ПО изображения.

Таблица 2. Сравнительный анализ методов машинного обучения

Методы МО Категорий,, метрики n,. Метод опорных векторов Случайный лес Extra Trees AdaBoost GBDT XGBoost

Размер вектора ПО изображения о CS о о CS о о CS о о CS о о CS о о CS о <n

о и о Точность 0,39 0,72 0,75 0,63 0,76 о" 0,54 0,82 0,84 0,63 0,78 0,82 0,80 0,82 0,84 0,82 0,88 0,87

а £ е ч Полнота 0,72 0,74 0,71 0,50 0,76 0,76 0,62 0,89 0,91 0,49 0,89 0,88 0,87 0,90 0,91 0,87 0,89 0,92

S а у F-мера 0,51 0,73 0,73 0,56 0,76 0,78 0,58 0,85 0,87 0,55 0,83 0,85 0,83 0,86 0,87 0,84 0,88 0,89

Точность 0,33 0,37 0,62 0,19 0,45 0,59 8 rn ,0 0,51 0,61 0,53 0,66 0,67 0,55 0,66 0,72 0,59 0,67 0,73

и Ü Полнота 0,18 0,34 0,63 0,25 0,48 0,59 0,17 0,42 0,48 0,48 0,53 0,58 0,45 0,48 0,51 0,45 0,48 0,56

F-мера 0,23 0,35 0,62 0,22 0,46 0,59 0,23 0,46 0,54 0,50 0,59 0,62 0,50 0,56 0,60 0,51 0,56 0,63

& и Точность 0,36 0,51 0,16 0,30 0,47 0,72 0,48 0,71 0,74 0,70 0,75 0,82 0,83 0,76 0,87 0,83 0,82 0,84

о & й ä б о у Полнота 0,16 0,34 0,24 0,21 0,44 0,82 0,46 0,84 0,89 0,84 0,84 0,84 0,81 0,74 0,81 0,81 0,82 0,83

F-мера 0,22 0,41 0,19 0,25 0,45 0,77 0,47 0,77 0,81 0,76 0,79 0,83 0,82 0,75 0,84 0,82 0,82 0,83

«Женщина» (код - 3) Точность 0,44 0,53 0,58 0,35 0,57 0,91 0,52 0,85 0,87 0,78 0,85 0,90 0,85 0,80 0,88 0,85 0,93 0,95

Полнота 0,17 0,26 0,52 0,16 0,64 0,73 0,39 0,71 0,75 0,73 0,71 0,70 0,71 0,67 0,69 0,71 0,69 0,69

F-мера 0,25 0,35 0,55 0,22 0,60 0,81 1 0,45 0,77 0,81 0,75 0,77 | 0,79 | 0,77 0,73 | 0,77 0,77 0,79 0,80

Методы МО Категорий,. метрики Метод опорных векторов Случайный лес Extra Trees AdaBoost GBDT XGBoost

Мужчина» (код - 4) Точность 0,29 0,56 0,72 0,43 0,68 0,90 0,47 0,62 0,78 0,60 0,67 0,86 0,67 0,75 0,92 0,68 0,87 0,90

Полнота 0,48 0,61 0,67 0,56 0,62 0,87 0,34 0,62 0,72 0,57 0,68 0,91 0,57 0,62 0,77 0,59 0,62 0,73

Б-мера 0,36 0,58 0,69 0,49 0,65 0,88 0,39 0,62 0,75 0,58 0,67 0,88 0,62 0,68 0,84 0,63 0,72 0,81

«Горы» (код - 5) Точность 0,39 0,48 0,54 0,37 0,49 0,64 0,31 0,58 0,69 0,60 0,70 0,73 0,60 0,59 0,61 0,60 0,63 0,69

Полнота 00 гп ,0 0,40 0,52 0,28 0,42 0,72 0,53 0,63 0,71 0,60 0,63 0,67 0,81 0,81 06'0 0,81 0,88 0,90

Б-мера 8 гп ,0 0,44 0,53 0,32 0,45 0,68 0,39 0,60 0,70 0,60 0,66 0,70 0,69 0,68 0,73 0,69 0,73 0,78

«Небо» (код - 6) Точность 0,30 0,44 0,50 0,07 0,64 0,72 0,22 0,62 0,73 8 rn ,0 0,50 0,76 0,43 0,50 0,71 0,63 0,79 0,81

Полнота 0,27 0,37 0,42 7 ,0 0,56 0,44 0,10 0,54 0,60 0,22 0,48 0,56 0,26 0,41 0,49 0,43 0,53 0,58

Б-мера 0,28 0,40 0,46 0,10 0,60 0,55 0,14 0,58 0,66 0,28 0,49 0,64 0,32 0,45 0,58 0,51 0,63 0,68

«Пицца» (код - 7) Точность 0,12 0,28 0,50 0,19 0,45 0,62 0,20 0 ,0 0,65 0,35 0,57 0,71 0,42 0,48 0,64 0,42 0,67 0,76

Полнота 0,10 0 ,0 0,57 0,13 0,35 0,57 0,19 0,53 0,71 0,40 0,53 0,57 0,47 0,47 0,60 0,47 0,60 0,68

Б-мера ,0 0,33 0,53 0,15 0,39 0,59 0,19 0,46 0,68 0,37 0,55 0,63 0,44 0,47 0,62 0,44 0,63 0,72

Средне (macro) Точность 0,33 0,49 0,55 0,32 0,56 0,74 0,39 0,64 0,74 0,60 0,69 0,78 0,64 0,67 0,77 0,68 0,78 0,82

Полнота 0,31 0,43 0,54 0,28 0,53 0,69 5 rn ,0 0,65 0,72 0,59 0,66 0,71 0,62 0,64 0,71 0,64 0,69 0,74

Б-мера 0,29 0,45 0,54 0,29 0,55 0,71 0,36 0,64 0,73 0,59 0,67 0,74 0,62 0,65 0,73 0,65 0,72 0,77

Коэфф. Мэтьюса 0,16 8 гп ,0 0,45 0,17 0,41 0,56 0,21 0,57 0,59 0,37 0,54 0,62 0,59 0,63 0,61 0,63 0,63 0,69

дис-яос 0,58 0,62 0,72 0,78 0,81 0,84 | 0,61 0,78 0,89 0,71 0,74 o1 | 0,78 0,83 0,91 0,76 0,86 0,92

Конечной комбинацией выбранного алгоритма является ансамбль ДР. Он строится итеративно: каждый следующий добавляемый в композицию ДР настраивается на остатки предыдущих алгоритмов, в чем и заключается схожесть данного алгоритма с методом градиентного спуска. Реализация данного алгоритма в библиотеке «ХОВооб!» не отличает его от сути градиентного бустинга, однако она хороша с инженерной точки зрения за счет добавления регуляризации. Для выбранного метода была проведена настройка гиперпараметров [9]:

• Параметры отдельного ДР, определяющие характеристики каждого слабого классификатора:

о Минимальная сумма весов наблюдений для создания узла или листа, которая вводится для контроля переобучения. Зависимость :-меры классификатора от данного параметра приведена на рисунке 2 (а).

о Максимальная глубина ДР, ограничение которой также позволяет уберечь модель от переобучения. Зависимость :-меры классификатора от данного параметра приведена на рисунке 2 (Ь).

о Число признаков, которые случайным образом отбираются для лучшего разбиения. Зависимость :-меры классификатора от данного параметра приведена на рисунке 3 (а).

о Доля объектов, входящих случайным образом в выборку при построении отдельного ДР. Зависимость :-меры классификатора от данного параметра приведена на рисунке 3 (Ь).

Рис. 2. Зависимость /-меры классификатора на тестовой выборке от: а) минимальной суммы весов наблюдений для создания узла или листа, Ь) максимальной

глубины отдельного ДР

Рис. 3. Зависимость /-меры классификатора на тестовой выборке от: а) числа признаков, которые случайным образом отбираются для лучшего разбиения, Ь) доли объектов, входящих случайным образом в выборку при построении отдельного ДР

• Параметры бустинга модели:

о Количество ДР в модели. Увеличение данного параметра влияет на качество модели, но повышает и время обучения. Зависимость :-меры классификатора от данного параметра приведена на рисунке 4 (а).

о Коэффициент, с которым ДР входит в композицию, который влияет на процесс повторного взвешивания слабых классификаторов. Зависимость :-меры классификатора от данного параметра приведена на рисунке 4 (Ь).

а) Ь)

Рис. 4. Зависимость /меры классификатора на тестовой выборке от: а) количества ДР в модели; Ь) степени влияния каждого ДР на конечную модель

о Гамма определяет минимальное уменьшение функции потерь, необходимое для разбиения узла ДР. Зависимость ^меры классификатора от данного параметра приведена на рисунке 5 (а).

о Альфа - параметр для настройки Ь1-регуляризация, применяемой в случае использования векторов ПО высокой размерности. Зависимость :-меры классификатора от данного параметра приведена на рисунке 5 (Ь).

а) Ь)

Рис. 5. Зависимость/меры классификатора на тестовой выборке от: а) коэффициента Гамма; Ь) коэффициента Альфа

• Размер вектора ПО изображения. Качество классификации алгоритма прямо пропорционально зависит от данного параметра, что так же было учтено при разработке модели категоризации. Зависимость ^меры классификатора от данного параметра приведена на рисунке 6.

Рис. 6. Зависимость /-меры классификатора на тестовой выборке от размера вектора ПО

изображения

Конечный вариант обученного метода имел следующие значения параметров: минимальная сумма весов наблюдений для создания узла или листа - 5, максимальная глубина ДР - 7, доля признаков, которые случайным образом отбираются для лучшего разбиения - 0,7, доля объектов, входящих случайным образом в выборку при построении отдельного ДР - 0,75, количество ДР в модели - 800, степень влияния каждого ДР на конечную модель - 0,1, Гамма - 0,0, Альфа - 0,1, размер вектора ПО изображения - 50. И характеризовался следующими значениями метрик качества: точность - 0,82; полнота -0,74; F-мера - 0,77; коэффициент Мэтьюса - 0,69; AUC-ROC - 0,92.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Оценка результатов работы метода категоризации

Для оценки качества работы метода классификации были построены матрица неточностей и ROC-кривые для каждой категории, которые строятся с использованием метода обучения алгоритма «Один против всех» [10]. В таблице 3 приведена матрица неточностей, показывающая, как были классифицированы объекты.

Таблица 3. Матрица неточностей выбранного классификатора

Категория в поисковой системе изображений

Категория Самолет Кот Собака Женщина Мужчина Горы Небо Пицца

Оценка классификатора Самолет 843 8 0 0 0 48 81 0

Кот 0 3398 128 0 0 12 4 18

Собака 0 210 1872 21 62 6 0 19

Женщина 1 12 3 3714 362 7 0 1

Мужчина 6 2 17 275 4998 51 1 0

Горы 142 10 17 14 16 7315 682 4

Небо 82 1 3 0 21 281 801 1

Пицца 0 62 23 0 0 87 26 2062

ROC-кривые для каждой категории приведены на рисунке 7.

Рис. 7. ЯОС-кривые для каждой категории классификатора с настроенными

гиперпараметрами

Исходя из полученных результатов классификации, были сформулированы следующие выводы:

• Наивысшая точность категоризации характерна для категории «Самолет», так как ей присуще наименьшее разнообразие подкатегорий (в отличие от категорий

«Собаки» и «Коты»). В основном неверно категорированы изображения, на которых объект представлен частично или подвержен искажениям. Данная проблема решается следующими способами:

o Увеличение количества детектируемых ОТ на изображении, а также размера словаря ВС и вектора ПО изображения соответственно.

o Решение задачи сегментации объектов.

• Наивысшая точность характерна для изображений с однородным или отсутствующим фоном, что также создает предпосылки для решения задачи сегментации объектов.

• Худшая точность классификации соответствует категориям «Небо» и «Горы», так как на изображениях обеих категорий часть ОТ относится к одним и тем же ВС. Данная проблема практически не решается посредством увеличения количества детектируемых ОТ, поэтому, для категорий такого типа, необходимо вводить дополнительные признаки:

o Геометрические признаки для выделения контуров;

o Текстурные признаки для получения значений изменения яркости в окрестностях ОТ.

По той же причине часть изображений категории «Коты» были категоризированы как «Собаки», «Мужчины» - как «Женщины».

5. Разработка веб-приложения

Оптимальное использование разработанной системы подразумевает инструмент, позволяющий в режиме реального времени загружать изображение и получать вероятности отнесения данного изображения к категориям. Для решения данной задачи было разработано веб-приложение на языке Python с веб-фреймворка «Flask». Клиентская часть веб-приложения реализована с использованием шаблона «Bootstrap». Схема функционирования разработанного веб-приложения представлена на рисунке 8. Процесс работы приложения следующий:

1) Пользователь в браузер загружает изображение, которое необходимо категоризировать;

2) Изображение сохраняется на сервер, где:

a. Функция выделения ОТ, комбинирующая детектор FAST и дескриптор SURF, выделяет ключевые точки;

b. Функция представления изображения в виде вектора частоты вхождений ВС, с помощью словаря ВС, обрабатывая выделенные ОТ, считает ВП изображения в виде вектора частоты ВС, длиною 50.

3) Вектор подается на вход обученной модели классификации, которая определяет вероятности отнесения к каждой категории;

4) Результат работы выводится в браузер пользователю.

Рис. 8. Схема функционирования разработанного веб-приложения Разработанное веб-приложение доступно по адресу: https://imcat.leinad.cc/ .

Список литературы /References

1. Онлайн-курс лекций Натальи Васильевой «Анализ изображений и видео». [Электронный ресурс]. Режим доступа: https://www.youtube.com/watch? v=3oMHsofc0HA/ (дата обращения: 05.10.2017).

2. Lisin Dmitri A. «Combining Local and Global Image Features for Object Class Recognition» / Dimitri A. Lisin, Marwan A. Mattar, Matthew B. Blaschko, Mark C. Benfield, Erik G. Learned-Mille // Computer Vision Laboratory, Dept. of Oceanography & Dept. of Computer Science Coastal Sciences/Fisheries Inst. University of Massachusetts Louisiana State University. Amherst. MA 01003 US.

3. Jianbo Shi «Good Features to Track» / Jianbo Shi, Carlo Tomasi // 1994.

4. Rodehorst V. «Comparison and evaluation of feature point detectors» / V. Rodehorst, A. Koschan. // 2006.

5. Lisin Dimitri A. «Combining Local and Global Image Features for Object Class Recognition» / Dimitri A. Lisin, Marwan A. Mattar, Matthew B. Blaschko, Mark C. Benfield, Erik G. Learned-Mille // Computer Vision Laboratory, Dept. of Oceanography & Dept. of Computer Science Coastal Sciences/Fisheries Inst. University of Massachusetts Louisiana State University. Amherst. MA 01003 US.

6. Eichhorn J. «Object categorization with SVM: kernels for local features, tech. rep.» / J. Eichhorn and O. Chapelle // Max-Planck-Institut f ur biologische Kybernetik. July, 2004.

7. Bay Herbert. «SURF: Speeded Up Robust Features» / Herbert Bay, Tinne Tuytelaars, Luc Van Gool // Proceedings of the ninth European Conference on Computer Vision. Pp. 404-417, 2006.

8. Yang Х. «LDB: An ultra-fast feature for scalable augmented reality» / X. Yang, K. T. Cheng // In IEEE and ACM Intl. Sym. on Mixed and Augmented Reality (ISMAR). Pp. 49-57, 2012.

9. «Complete Guide to Parameter Tuning in XGBoost (with codes in Python)». [Электронный ресурс]. Режим доступа: https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/. Accessed. 2 April, 2018/

10. Онлайн-курс «Обучение на размеченных данных». [Электронный ресурс]. Режим доступа: Режим доступа: https://www.coursera.org/learn/supervised-learning/lecture/f2X6o/kachiestvo-otsienok-prinadliezhnosti-klassu/ (дата обращения: 01.02.2018).

РЕКОМЕНДАЦИИ ПО ЗАЩИТЕ КОРПОРАТИВНЫХ СЕТЕЙ IP-ТЕЛЕФОНИИ ОТ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА

К ИНФОРМАЦИИ Останкин Д.С. Email: Ostankin17128@scientifictext.ru

Останкин Дмитрий Сергеевич - бакалавр, кафедра информационной безопасности, Национальный исследовательский университет Московский институт электронной техники, г. Зеленоград

Аннотация: актуальность статьи обусловлена преимуществами использования IP-телефонии для повышения эффективности связи на любом предприятии или в корпорации и практическим отсутствием разработанных методических рекомендаций по обеспечению безопасности информации, курсирующей по данным сетям. В статье проводится обзор опыта компаний по защите сетей IP-телефонии, методических документов в области защиты VoIP и их дальнейшее использование для построения рекомендаций по защите корпоративных сетей IP-телефонии от несанкционированного доступа к информации.

Ключевые слова: IP-телефония, защита сети IP-телефонии, рекомендации по защите сети IP-телефонии.

RECOMMENDATIONS FOR SECURITY OF IP-TELEPHONY CORPORATE NETWORKS FROM UNAUTHORIZED ACCESS

Ostankin D.S.

Ostankin Dmitry Sergeevich - Bachelor, INFORMATION SECURITY DEPARTMENT, NATIONAL RESEARCH UNIVERSITY MOSCOW INSTITUTE OF ELECTRONIC ENGINEERING, ZELENOGRAD

Abstract: the relevance of the article is due to the advantages of using IP-telephony to improve the efficiency of telecommunication in any company and the lack of composed recommendations for security of IP-telephony corporate networks from unauthorized access. The article reviews the experience of companies protecting IP-telephony networks, methodological documents in the field of VoIP security and their further use to compose recommendations for security of IP-telephony corporate networks from unauthorized access.

Keywords: IP-telephony, IP-telephony network security, recommendations for security of IP-telephony networks.

УДК 004.056.53

i Надоели баннеры? Вы всегда можете отключить рекламу.