АКТУАЛЬНОСТЬ ПРЕДСТАВЛЕНИЯ ДАННЫХ В АЛГОРИТМАХ АВТОМАТИЧЕСКОЙ ГРУППИРОВКИ ОБЪЕКТОВ С БОЛЬШИМ ОБЪЕМОМ ВХОДНЫХ ДАННЫХ

В.А. Волков; Ф.Г. Ахматшин

УДК 004.622

АКТУАЛЬНОСТЬ ПРЕДСТАВЛЕНИЯ ДАНЫХ В АЛГОРИТМАХ

АВТОМАТИЧЕСКОЙ ГРУППИРОВКИ ОБЪЕКТОВ С БОЛЬШИМ ОБЪЕМОМ

ВХОДНЫХ ДАННЫХ

В. А. Волков Научный руководитель - Ф. Г. Ахматшин

Лесосибирский филиал Сибирского государственного университета науки и технологий

имени академика М. Ф. Решетнева Российская Федерация, 662543, г. Лесосибирск, ул. Победы, 29, корп. 2 E-mail: ahmatshin_fg@sibsau.ru

Рассматривается актуальность извлечения, сбора данных, добычи данных для получения структурированных данных или репрезентативной выборки меньшего размера и практическая реализация переработки (подготовки) большого количества информации для задачи автоматической группировки объектов(кластерного анализа).

Ключевые слова: представления данных, алгоритмы автоматической группировки.

RELEVANCE OF DATA REPRESENTATION IN ALGORITHMS FOR AUTOMATIC GROUPING OF OBJECTS WITH A LARGE AMOUNT OF INPUT DATA

V. A. Volkov Scientific Supervisor - F. G. Ahmatshin

Lesosibirsk branch of the Siberian state University of Science and Technology named after academician M. F. Reshetnev 29/2, Pobedy str., Lesosibirsk, 662543, Russian Federation E-mail: ahmatshin_fg@sibsau.ru

The article considers the relevance of data extraction, data collection, and data mining for obtaining structured data or a representative sample of a smaller size, and the practical implementation of processing (preparing) a large amount of information for the task of automatic object grouping (cluster analysis).

Keywords: data representations, automatic grouping.

Огромное количество данных хранится в цифровой форме, обеспечивая большой потенциал для развития автоматического анализа данных, как структурированных, так и слабоструктурированных [1]. Это требует новых достижений в способах восприятия, автоматической обработки и обобщения информации [2-3].

Увеличение объема и разнообразия данных [2] предполагает, что исследователь, не пользующийся предварительно определенными моделями и гипотезами, будет стремиться понять общие характеристики или структуру многомерных данных, а исследователь подтверждающий адекватность модели или справедливость предположений рассчитывать на имеющиеся данные.

Для анализа данных было предложено множество статистических методов [4]. В одних методах по части данных предсказывают поведение остальной части данных [5], в других маркируют части обучающей выборки [6], в третьих определяются попарные ограничения [7].

Секция «Программные средства и информационные технологии»

Алгоритмы и/или автоматизированные системы задач автоматической группировки, способны обнаруживать естественные группировки в немаркированных предварительно данных, основываясь на некой мере подобия. Чаще используется метрическое определение подобия - расстояние в некотором пространстве признаков между объектами. Присутствие шума в данных делает обнаружение групп более трудным. Идеальная группа, определенная как ряд точек, который компактен и изолирован, может требовать знаний в соответствующей области. Развитие технологий группировки неотъемлемо связано с программированием [8].

Задачи автоматической группировки, предполагают анализ многомерных данных. Многомерных данных, таких как при естественной классификации производственных партии электрорадиоизделий представленных на рис. 1, при структурировании данных, выделении аномалий в данных (например, при выявлении некачественной продукции в производственном процессе), для сжатия данных путем замены одинаковых либо очень близких по характеристикам объектов данных единственным объектом, являющимся их обобщенным (усредненным) представлением [8].

Правильное представление данных (выбор обрабатываемых характеристик объектов испытаний) на рис. 2, полученные специализированными программами, позволяет получить компактные и изолированные друг от друга группы [9], в задачах автоматической группировки. Кроме того алгоритмам требуется большое количество времени для нахождения глобального оптимума или близкого к нему решения [10], когда число группируемых объектов очень велико.

В моделях и методах автоматической группировки желательно достигать более тесной интеграции между алгоритмами автоматической группировки и прикладными задачами, например, часть данных - менее связных групп - могут быть проигнорированы, что связано с учетом особенностей прикладной задачи.

___

_____

I I

ЕЕ

№ испытания № испытания

Рис. 1. Исходные данные Рис. 2. Подготовленные данные

Библиографические ссылки

1. Jain, A.K. Data clustering: 50 years beyond K-means /A.K. Jain // Pattern Recognition Letters.- 2010.- Vol.31.- P. 651-666.

2. Gantz, J.F. The diverse and exploding digital universe. IDC White Paper [Электронный ресурс]/ J.F. Gantz// Framingham: IDC. - 2008. Режим доступа: URL http://www.emc.com/ collateral/analyst-reports/diverse-exploding-digitaluniverse.pdf (дата обращения: 01.12.2018).

-a =

о К

О Q Hi

о о

N

О

иж^ш

н -а

Ш го о

3. Jain, A.K. Data clustering: 50 years beyond K-means/A.K. Jain// Pattern Recognition Letters.-2010.- Vol. 31.-P. 651-666.

4. Tabachnick, B.G. Using Multivariate Statistics, fifth ed. / B.G.Tabachnick, L.S. Fidell.-Boston:Allyn and Bacon.- 2007.- P.980

5. Duda, R. Pattern Classification, second ed. / R. Duda., P. Hart, D. Stork.- New York:John Wiley and Sons.- 2001.- P.680

6. Semi-Supervised Learning / O. Chapelle, B. Schoelkopf.,A.Zien (Eds.).- Cambridge:MIT Press.- 2006.- P. 508

7. Lange, T. Learning with constrained and unlabelled data /T. Lange, M.H. Law, A.K. Jain, J. Buhmann // IEEE Comput. Soc. Conf. Comput. Vision Pattern Recognition.- 2005.- Vol.1.- P.730-737.

8. Казаковцев, Л.А. Метод жадных эвристик для систем автоматической группировки объектов : дис. доктора технических наук : 05.13.01 / Казаковцев Лев Александрович; [Место защиты: Сиб. федер. ун-т]. - Красноярск, 2016. - 429 с.

9. Ng, A.Y. On spectral clustering: Analysis and an algorithm / A.Y. Ng, M.I. Jordan, Y. Weiss // Adv. Neural Inform. Process. Systems.- [s.l.]:MIT Press.- 2001.- Vol. 14.- P. 849-856.

10. Spath, H. Cluster Analysis Algorithms / H. Spath.- Chichester: Ellis Horwood.- 1989.- P. 226.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В.А. Волков, Ф.Г. Ахматшин

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В.А. Волков, Ф.Г. Ахматшин

RELEVANCE OF DATA REPRESENTATION IN ALGORITHMS FOR AUTOMATIC GROUPING OF OBJECTS WITH A LARGE AMOUNT OF INPUT DATA

Текст научной работы на тему «АКТУАЛЬНОСТЬ ПРЕДСТАВЛЕНИЯ ДАННЫХ В АЛГОРИТМАХ АВТОМАТИЧЕСКОЙ ГРУППИРОВКИ ОБЪЕКТОВ С БОЛЬШИМ ОБЪЕМОМ ВХОДНЫХ ДАННЫХ»