Научная статья на тему 'Применение алгоритмов кластеризации k-means и g-means в задачах распознавания воздушных объектов'

Применение алгоритмов кластеризации k-means и g-means в задачах распознавания воздушных объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
258
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВОЗДУШНЫЕ ОБЪЕКТЫ / AIRBORNE OBJECTS / РАСПОЗНАВАНИЕ / RECOGNITION / РАДИОЛОКАЦИОННОЕ РАСПОЗНАВАНИЕ / RADAR DETECTION / КЛАСТЕРИЗАЦИЯ / CLUSTERING / КЛАСТЕРИЗАЦИИ K-MEANS И G-MEANS / K-MEANS AND G-MEANS CLUSTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антропов В. В.

Рассмотрено применение кластеризации семействами алгоритмов k-means и g-means в задачах распознавания воздушных объектов в условиях неполноты и недостоверности данных. Обоснован выбор этих алгоритмов кластеризации. Подчёркнута важность кластеризации в задачах распознавания. Сформирована исследовательская выборка, которая применялась для демонстрации работоспособности кластеризации семействами алгоритмов k-means и g-means. Проведён анализ результатов, полученных в ходе кластеризации. Выявлена перспектива методики прогнозирования в задачах распознавания ВО.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Антропов В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF K-MEANS AND G-MEANS CLUSTERING ALGORITHMS IN OBJECTS RECOGNITION

The application of clustering by families of k-means and g-means algorithms in problems of recognition of airborne objects under the conditions of incompleteness and unreliability of data is considered in the article. The choice of these clustering algorithms is substantiated. The importance of clustering in recognition problems is emphasized. A research sample was created and used to demonstrate the efficiency of clustering by families of k-means and g-means algorithms. The analysis of the results obtained during clustering is carried out. The perspective of the forecasting method in problems of airborne objects recognition is revealed.

Текст научной работы на тему «Применение алгоритмов кластеризации k-means и g-means в задачах распознавания воздушных объектов»

ТЕХНИЧЕСКИЕ НАУКИ / ENGINEERING

DOI: https://doi.org/10.23670/IRJ.2017.61.098 Антропов В.В.

ORCID: 0000-0002-8019-5164, аспирант, Санкт-Петербургский Горный университет ПРИМЕНЕНИЕ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ K-MEANS И G-MEANS В ЗАДАЧАХ РАСПОЗНАВАНИЯ ВОЗДУШНЫХ ОБЪЕКТОВ

Аннотация

Рассмотрено применение кластеризации семействами алгоритмов k-means и g-means в задачах распознавания воздушных объектов в условиях неполноты и недостоверности данных. Обоснован выбор этих алгоритмов кластеризации. Подчёркнута важность кластеризации в задачах распознавания. Сформирована исследовательская выборка, которая применялась для демонстрации работоспособности кластеризации семействами алгоритмов k-means и g-means. Проведён анализ результатов, полученных в ходе кластеризации. Выявлена перспектива методики прогнозирования в задачах распознавания ВО.

Ключевые слова: воздушные объекты, распознавание, радиолокационное распознавание, кластеризация, кластеризации k-means и g-means.

Antropov V.V.

ORCID: 0000-0002-8019-5164, Postgraduate Student, St. Petersburg Mining University

APPLICATION OF K-MEANS AND G-MEANS CLUSTERING ALGORITHMS IN OBJECTS RECOGNITION

Abstract

The application of clustering by families of k-means and g-means algorithms in problems of recognition of airborne objects under the conditions of incompleteness and unreliability of data is considered in the article. The choice of these clustering algorithms is substantiated. The importance of clustering in recognition problems is emphasized. A research sample was created and used to demonstrate the efficiency of clustering by families of k-means and g-means algorithms. The analysis of the results obtained during clustering is carried out. The perspective of the forecasting method in problems of airborne objects recognition is revealed.

Keywords: airborne objects, recognition, radar detection, clustering, k-means and g-means clustering.

В современных реалиях, при значительном возрастании роли авиации, стали возникать проблемы, связанные с контролем воздушной обстановки, при решении задач логистики, безопасности и пр. В связи с этим, остро стоит задача оперативной обработки информации, связанной с распознаванием типов летательных аппаратов, находящихся в воздушном пространстве, и возможных вариантов их действий.

Распознавание воздушных объектов имеет ряд трудностей, такие как неполнота информации, её недостоверность, и пр. Распознавание производится по ряду признаков, в результате чего мы с высокой долей вероятности, либо с полной уверенностью (это зависит от методики распознавания), можем определить принадлежность исследуемого нами воздушного объекта тому или другому типу, или даже можем назвать модель воздушного судна.

Методики распознавания условно можно разделить на визуальные, траекторные и радиолокационные. Наиболее точными являются методики радиолокационного распознавания.

Распознавание воздушных объектов можно разделить на несколько этапов:

• Селекция целей на фоне помех;

• Классификация целей;

• Опознавание целей;

• Оценка состояния и контроль действий целей.

Для реализации распознавания необходимо достаточно точно определить, какие классы воздушных объектов можно определить. Для этого в работе были исследованы алгоритмы кластеризации k-means и g-means.

Кластеризация семействами алгоритмов k-means и g-means обычно используется для решения задач описательной бизнес-аналитики, в частности, для кластеризации (автоматизированной сегментации) объектов. Данный тип кластеризации показал высокую степень надёжности и перспективы дальнейшей высокопроизводительной обработки информации, применить методы прогнозирования, что открывает ещё большие возможности для анализа данных.

Принцип оптимального разбиения множества данных на k кластеров является основной составляющей алгоритма k-means. Пока целевая функция алгоритма разбиения не достигнет экстремума, алгоритм будет пытаться группировать данные по кластерам. Количество кластеров k задаётся аналитиком, исходя из его предпочтений, опирающихся на его интуицию, практический опыт, теоретическую составляющую и пр. Важной составляющей алгоритма является центр кластера - среднее значения переменных объектов, входящих в кластер. Алгоритм состоит из двух этапов.

1. Первоначальное распределение объектов по кластерам. Аналитик задает количество кластеров, по которым будут распределяться объекты из исследовательской выборки. Средство, применяемое аналитиком, произвольным образом выбирает количество объектов из исследуемой выборки равное количеству, заданных аналитиком кластеров, и приравнивает значения центров этих кластеров к значениям выбранных объектов. Таким образом, каждый кластер получит свой начальный центр.

2. Итерационный процесс. Теперь алгоритм высчитывает новые центры кластеров и распределяет по кластерам объекты из исследовательской выборки. Работа алгоритма продолжается до тех пор, пока значения центров кластеров

не перестанут пересчитываться, т.е. пока все объекты из исследовательской выборки не перестанут менять кластер, к которому их отнес алгоритм на предыдущем шаге вычислений.

Случается, что аналитик не имеет возможности назвать точное число кластеров, на которое требуется разбить исследовательскую выборку. В таких случаях применяется алгоритм g-means. Данный алгоритм, последовательно выполняя статистический тест, сам определяет число кластеров в модели. Суть теста состоит в том, что данные внутри каждого кластера подчиняются определенному гауссовскому (Gaussian, отсюда и название алгоритма) закону распределения. Если тест дает отрицательный результат, кластер разбивается на два новых кластера (алгоритмом k-means) с центрами.

Следует обратить внимание, что основой алгоритмов k-means и g-means является гипотеза о компактности, предполагающая, что информацию об объектах из исследовательской выборки, можно представить в виде многомерных векторов, образующих в пространстве своеобразный комок.[2]

Перед работой алгоритма g-means аналитик должен ввести значения исходного набора данных (X) и уровня значимости (П ).

1. На первом шаге C инициализируется как множество центров кластеров средними значениями.

2. C ^ kmeans (C, X).

3. jx | cluster |хг | = j| набор точек для кластера с центром c .

4. Следует проверка гипотезы о том, что значения в каждом кластере j распределены по гауссовскому закону с уровнем значимости П .

5. В случае если тест пройден и распределение является нормальным, то следует запомнить кластер. В противном случае заменить c двумя центрами.

6. Пока количество центров не перестанет возрастать, данный алгоритм, будет повторяться.

Формула расстояния между векторами признаков x и y выглядит следующим образом:

Г

d (x, y) = (x ' y ) , где z,- - значение значимости.

Теперь находим значимость атрибута по всем кластерам.

^ (Xj - xG) n _

1. Вычисляем дисперсию по разбросу между кластерами: MSB = —j-, где XG - среднее значение

к-1

всей исследовательской выборки, X. - среднее значение в кластере, П. - количество объектов, попавших в кластерk

- количество кластеров.

2. Вычисляем дисперсию по разбросу внутри кластеров:

к-1

5 ^

= --, где Б. - СКО внутри кластера.

к

МБ

3. Вычисляем значение F-критерия: F =

B

MSW

4. Вычисляется значимость, Используя с

r dx d2 ~2~:2

Значимость (F ) =

1 1 d-2

функцию распределения Фишера, вычисляем значимость: Q 00% • где dx = к -1, d2 = Па - к, I-неполная бета-функция. [1]

_ '> ) I

d2 +d1F V

Для дальнейших вычислений мы применим средство Data Mining. Оно позволит наглядно продемонстрировать работу алгоритмов кластеризации на примере работы с воздушными объектами.

Вычисленная нами модель может решить задачу классификации. Кластер присваивает отметку класса на основе большинства принадлежащих ему примеров. Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров: к 2

V = ^ ^ (X - а ) , где k - число кластеров, S, - полученные кластеры, i = 1, 2, ..., k и - центры масс

,=1 x eSt

векторов x. е S .

При подготовке обучающей выборки для кластеризации следует иметь в виду следующее:

- если задача аналитика - сжато описать имеющиеся данные при помощи кластеров, то выделять тестовую выборку, смысла нет;

- как правило, метрические алгоритмы кластеризации плохо работают с категориальными признаками, измеренными в шкале наименований.

Теперь следует провести нормализацию данных в обучающей выборке. Целью нормализации значений полей является преобразование данных к виду, наиболее подходящему для обработки алгоритмом.

Покажем работоспособность метода на примере информации о воздушных объектах. Для каждого самолёта,

кроме его модели, известно шесть характеристик: длина (м), высота (м), площадь крыла (м2), размах крыла (м), практический потолок (м), максимальная скорость на высоте (км/ч). Самолеты можно разбить на сегменты по этим показателям. После отработки алгоритма к-теаш получим следующие результаты (рис. 1).

Самолет Длина,м Высота,м Площадь крыла,м2 Размах крыла,м Практический потолок,м Максимальная скорость на высоте,км/ч Номер кластера Расстояние до центра кластера

Миг-29 17,32 4,73 38,06 11,36 18000 2450 0 53,3333524647991

МиГ-35 17,32 4,73 40 12 17500 2560 0 56,6666827369982

Су-27СМ 21,935 5,932 62,04 14,698 18000 2500 0 3,33435349160901

F/A-18E 18,31 4,88 46,45 11,62 15240 1915 1 23,3369985730103

F-35C 15,67 4,48 58,3 13,11 18200 1700 1 238,333637552896

Ту-160 54,1 13,1 232 55,7 22000 2200 1 261,667815078509

Cessna 182 8,8 2,8 16,2 11 5517 278 2 54,6667172023979

Ан-2 12,4 5,35 71,52 5,795 4200 300 2 32,6670277408406

Як-52 7,68 2,7 15 9,3 6000 420 2 87,333374767904

А-320 37,57 11 122,6 34,1 12000 840 3 65,5461764018554

В-2 Spirit 20,9 5,1 460 52,12 15240 1010 3 104,456667675892

В-52Н 49,05 12,4 371,6 56,39 16965 957 3 51,4563658571687

Boeing-787-10 68,27 17 325 60,17 13100 956 3 50,4585336265061

Boeing-747-400 70,7 19,4 541,2 64,4 13750 920 3 14,4849375610158

F-117 20,08 3,78 73 13,2 13700 993 3 87,4585568733753

Ил-78 46,54 14,76 300 50,5 11230 830 3 75,5459737916636

Cy-28 15,36 5,2 30,1 14,36 7000 950 3 44,4637493509375

Ty-95MC 49,13 13,3 289,9 50,04 10500 830 3 75,54584102494

Ty-154M 47,9 11,4 202 37,55 12100 975 3 69,4547513679763

Як-42 36,38 9,83 150 34,88 9600 700 3 205,545694243105

Рис. 1 - Общий набор после кластеризации алгоритмом к-шеаш

В алгоритме кластеризации g-means у аналитика есть возможность повлиять на результат, используя коэффициент отталкивания, и задать максимальное число кластеров или шагов вручную. Отработав, данный алгоритм выдал результаты, представленные на рис. 2.

Самолет Длина.м Высота.м Площадь крыла,м2 Размах крыла.м Практический потолок.м Максимальная скорость на высоте,км/ч Номер ластер. Расстояние до центра кластера

0 Cessna 182 8,8 2,8 16,2 11 5517 278 2 139,65701232567

Ан-2 12.4 5,35 71,52 5.795 4200 300 2 117,65695756157

Як-52 7,68 2.7 15 9.3 6000 420 2 2.39704049224573

А-320 37,57 11 122.6 34.1 12000 840 32.8023424775662

В-2 Spirit 20.9 5.1 460 52.12 15240 1010 137,200851286232

В-52Н 49.05 12.4 371.6 56.39 16965 957 84.2003353368123

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Boeing-787-10 68.27 17 325 60.17 13100 956 83.2016758326934

В oeing-747-400 70.7 19.4 541.2 64.4 13750 920 47.208354426637

F-117 20.08 3.78 73 13.2 13700 993 120.202322738618

Ил-78 46,54 14.76 300 50.5 11230 830 42.8015672183067

Cy-28 15.36 5.2 30.1 14,36 7000 950 77,2048056644737

Ту-95МС 49.13 13.3 289.9 50.04 10500 830 42.8013378056681

Ту-154М 47.9 11.4 202 37.55 12100 975 102.199486889864

Як-42 36.38 9.83 150 34.88 9600 700 172.801007265297

F/A-18E 18.31 4.88 46.45 11,62 15240 1915 0 131.829144446515

F-35C 15.67 4.48 58.3 13.11 18200 1700 0 83.1727907976544

Миг-29 17.32 4.73 38.06 11.36 18000 2450 0 666.828596249269

МиГ-35 17 32 4.73 40 12 17500 2560 0 776.8285653728

н Су-27СМ 21.935 5,932 62.04 14.698 18000 2500 0 716.828519793125

1 Ту-160 54.1 13,1 232 55.7 22000 2200 0 416.829150286382

Рис. 2 - Общий набор после кластеризации алгоритмом g-means

В данной работе были представлены способы кластеризации, которые продемонстрировали интересные результаты, несмотря на то, что количество признаков и объектов в обучающей выборке было крайне мало. Например, в кластеризации g-means получилось разбить воздушные объекты на 3 кластера, которым мы можем дать условные названия, таки как «легкомоторные самолёты», «военные самолёты» и «пассажирские самолёты». Кластеризация к-

means продемонстрировала попытку более чёткой кластеризации. В частности это отразилось на разбиении кластера «военной авиации» ещё два.

Оба способа кластеризации показали правильность их выбора, а также наличие высокого потенциала. Добавление дополнительных признаков для распознавания воздушных объектов (фазовый портрет, спектральный портрет, дальностный портрет и пр.) и информации в обучающую выборку (увеличим количество самолётов, которые будем рассматривать) сделает кластеры более точными, а также откроет перспективу для метода прогнозирования, который поможет нам бороться с такими явлениями, как нечёткость информации, её неопределённость, и даже недостоверностью.

Список литературы / References

1. Deductor. Руководство по алгоритмам. Версия 5.2.0. 1995-2010 Компания BaseGroup ™ Labs www.basegroup.ru - 38 с.

2. Лебедев В. В. Информационные технологии бизнес-аналитики. Система подготовки принятия решения Deductor. / В. В. Лебедев, А. И. Дерябин // Учебно-методическое пособие. Кафедра информационных технологий в бизнесе. НИУ ВШЭ ПФб 2011. - 190 с.

Список литературы на английском языке / References in English

1. Deductor. Rukovodstvo po algoritmam. Versiya 5.2.0. [Deductor. Algorithm guide. Version 5.2.0] / 1995-2010

Kompaniya BaseGroup ™ Labs. www.basegroup.ru [1995-2010 BaseGroup ™ Labs Company. www.basegroup.ru]. - 38 P. [in Russian]

2. Lebedev V. V. Informacionnye technologii biznes-analitiki. Sistema podgotovki prinyatiya resheniya Deductor [Information technology business intelligence. Decision making system Deductor] / V. V. Lebedev, A. I. Deryabin // Uchebno-metodicheskoe posobie. Kafedra informacionnyh tehnogiy v biznese. NIU VSHE PFb [Teaching aid. Department of Information Technologies in Business]. - 2011. -190 P. [in Russian]

DOI: https://doi.org/10.23670/IRJ.2017.61.065 Бессмельницин С.А. 1, Мамелин Ю.В. 2, Чепрасова А.С. 3, Якуба Д.Ю. 4

1ORCID: 0000-0002-8957-5104, Кубанский государственный университет КубГУ, 2ORCID: 0000-0002-0027-2925, Кубанский государственный университет КубГУ, 3ORCID: 0000-0001-8189-2669, Кубанский государственный университет КубГУ, 4ORCID: 0000-0002-4305-3378, Кубанский государственный университет КубГУ РАЗРАБОТКА СИСТЕМЫ АВТОНОМНОЙ НАВИГАЦИИ НА ОСНОВЕ ТЕХНОЛОГИЙ ЛИДАРНОГО СКАНИРОВАНИЯ МЕСТНОСТИ И SOFTWARE DEFINED RADIO

Аннотация

Представлено описание разработки главных частей системы автономной навигации робототехнических комплексов, основным компонентом которого является система лидарного сканирования среды видимым оптическим диапазоном частот, а также программно-определяемая радиосистема (software defined radio). Рассмотрены основные рабочие части устройства и объяснён принцип работы отдельных блоков системы лидарного сканирования. Произведен анализ имеющейся элементной базы, который позволил выявить несколько чипов, на базе которых можно построить локационную систему.

Ключевые слова: автоматизация, робототехника, лидар, ПЗС линейка (прибор с зарядовой связью), software defined radio, оптическая система, спектроскопия, ПЛИС.

Bessmelnitsin S.A.1, Mamelin Yu.V.2, Cheprasova A.S.3, YakubaD.Yu.4

1ORCID: 0000-0002-8957-5104, Kuban State University KubSU,

2ORCID: 0000-0002-0027-2925, Kuban State University KubSU,

3ORCID: 0000-0001-8189-2669, Kuban State University KubSU,

4ORCID: 0000-0002-4305-3378, Kuban State University KubSU DEVELOPMENT OF SELF-NAVIGATION SYSTEM BASED ON LIDAR LOCATION SCANNING TECHNOLOGIES TECHNOLOGY AND SOFTWARE DEFINED RADIO

Abstract

The article contains the description of the main parts of self-navigation system of robotic complexes, the main component of which is the lidar scanning system of the environment with an optical frequency band, and a software defined radio. The main working parts of the device are examined and the operating principle of the individual units of the lidar scanning system is explained. Analysis of the existing elemental base was carried out. It allowed revealing several chips which enable building a location system.

Keywords: automation, robotics, lidar, CCD ruler (charge-coupled device), software defined radio, optical system, spectroscopy, FPGA.

Сегодня мобильные робототехнические системы применяются в самых различных областях человеческой жизнедеятельности. Заводы нуждаются в различных многофункциональных робототехнических комплексах, а люди активно приобретают роботов для развлечения и удобства в быту. Также робототехнические системы широко применяются в службах спасения и стоят на вооружении множества стран мира.

Хотя робототехнические комплексы уже разрабатываются не одно десятилетие до сих пор основной проблемой всех ныне существующих автономных роботов, которые перемещаются самостоятельно, без управления со стороны человека, остаётся навигация. Яркий пример этому ежегодный конкурс DARPA Robotics Challenge, где роботы не

i Надоели баннеры? Вы всегда можете отключить рекламу.