УДК 004.622
АКТУАЛЬНОСТЬ ПРЕДСТАВЛЕНИЯ ДАНЫХ В АЛГОРИТМАХ
АВТОМАТИЧЕСКОЙ ГРУППИРОВКИ ОБЪЕКТОВ С БОЛЬШИМ ОБЪЕМОМ
ВХОДНЫХ ДАННЫХ
В. А. Волков Научный руководитель - Ф. Г. Ахматшин
Лесосибирский филиал Сибирского государственного университета науки и технологий
имени академика М. Ф. Решетнева Российская Федерация, 662543, г. Лесосибирск, ул. Победы, 29, корп. 2 E-mail: ahmatshin_fg@sibsau.ru
Рассматривается актуальность извлечения, сбора данных, добычи данных для получения структурированных данных или репрезентативной выборки меньшего размера и практическая реализация переработки (подготовки) большого количества информации для задачи автоматической группировки объектов(кластерного анализа).
Ключевые слова: представления данных, алгоритмы автоматической группировки.
RELEVANCE OF DATA REPRESENTATION IN ALGORITHMS FOR AUTOMATIC GROUPING OF OBJECTS WITH A LARGE AMOUNT OF INPUT DATA
V. A. Volkov Scientific Supervisor - F. G. Ahmatshin
Lesosibirsk branch of the Siberian state University of Science and Technology named after academician M. F. Reshetnev 29/2, Pobedy str., Lesosibirsk, 662543, Russian Federation E-mail: ahmatshin_fg@sibsau.ru
The article considers the relevance of data extraction, data collection, and data mining for obtaining structured data or a representative sample of a smaller size, and the practical implementation of processing (preparing) a large amount of information for the task of automatic object grouping (cluster analysis).
Keywords: data representations, automatic grouping.
Огромное количество данных хранится в цифровой форме, обеспечивая большой потенциал для развития автоматического анализа данных, как структурированных, так и слабоструктурированных [1]. Это требует новых достижений в способах восприятия, автоматической обработки и обобщения информации [2-3].
Увеличение объема и разнообразия данных [2] предполагает, что исследователь, не пользующийся предварительно определенными моделями и гипотезами, будет стремиться понять общие характеристики или структуру многомерных данных, а исследователь подтверждающий адекватность модели или справедливость предположений рассчитывать на имеющиеся данные.
Для анализа данных было предложено множество статистических методов [4]. В одних методах по части данных предсказывают поведение остальной части данных [5], в других маркируют части обучающей выборки [6], в третьих определяются попарные ограничения [7].
Секция «Программные средства и информационные технологии»
Алгоритмы и/или автоматизированные системы задач автоматической группировки, способны обнаруживать естественные группировки в немаркированных предварительно данных, основываясь на некой мере подобия. Чаще используется метрическое определение подобия - расстояние в некотором пространстве признаков между объектами. Присутствие шума в данных делает обнаружение групп более трудным. Идеальная группа, определенная как ряд точек, который компактен и изолирован, может требовать знаний в соответствующей области. Развитие технологий группировки неотъемлемо связано с программированием [8].
Задачи автоматической группировки, предполагают анализ многомерных данных. Многомерных данных, таких как при естественной классификации производственных партии электрорадиоизделий представленных на рис. 1, при структурировании данных, выделении аномалий в данных (например, при выявлении некачественной продукции в производственном процессе), для сжатия данных путем замены одинаковых либо очень близких по характеристикам объектов данных единственным объектом, являющимся их обобщенным (усредненным) представлением [8].
Правильное представление данных (выбор обрабатываемых характеристик объектов испытаний) на рис. 2, полученные специализированными программами, позволяет получить компактные и изолированные друг от друга группы [9], в задачах автоматической группировки. Кроме того алгоритмам требуется большое количество времени для нахождения глобального оптимума или близкого к нему решения [10], когда число группируемых объектов очень велико.
В моделях и методах автоматической группировки желательно достигать более тесной интеграции между алгоритмами автоматической группировки и прикладными задачами, например, часть данных - менее связных групп - могут быть проигнорированы, что связано с учетом особенностей прикладной задачи.
___
_____
I I
ЕЕ
№ испытания № испытания
Рис. 1. Исходные данные Рис. 2. Подготовленные данные
Библиографические ссылки
1. Jain, A.K. Data clustering: 50 years beyond K-means /A.K. Jain // Pattern Recognition Letters.- 2010.- Vol.31.- P. 651-666.
2. Gantz, J.F. The diverse and exploding digital universe. IDC White Paper [Электронный ресурс]/ J.F. Gantz// Framingham: IDC. - 2008. Режим доступа: URL http://www.emc.com/ collateral/analyst-reports/diverse-exploding-digitaluniverse.pdf (дата обращения: 01.12.2018).
-a =
о К
О Q Hi
о о
N
О
иж^ш
н -а
Ш го о
3. Jain, A.K. Data clustering: 50 years beyond K-means/A.K. Jain// Pattern Recognition Letters.-2010.- Vol. 31.-P. 651-666.
4. Tabachnick, B.G. Using Multivariate Statistics, fifth ed. / B.G.Tabachnick, L.S. Fidell.-Boston:Allyn and Bacon.- 2007.- P.980
5. Duda, R. Pattern Classification, second ed. / R. Duda., P. Hart, D. Stork.- New York:John Wiley and Sons.- 2001.- P.680
6. Semi-Supervised Learning / O. Chapelle, B. Schoelkopf.,A.Zien (Eds.).- Cambridge:MIT Press.- 2006.- P. 508
7. Lange, T. Learning with constrained and unlabelled data /T. Lange, M.H. Law, A.K. Jain, J. Buhmann // IEEE Comput. Soc. Conf. Comput. Vision Pattern Recognition.- 2005.- Vol.1.- P.730-737.
8. Казаковцев, Л.А. Метод жадных эвристик для систем автоматической группировки объектов : дис. доктора технических наук : 05.13.01 / Казаковцев Лев Александрович; [Место защиты: Сиб. федер. ун-т]. - Красноярск, 2016. - 429 с.
9. Ng, A.Y. On spectral clustering: Analysis and an algorithm / A.Y. Ng, M.I. Jordan, Y. Weiss // Adv. Neural Inform. Process. Systems.- [s.l.]:MIT Press.- 2001.- Vol. 14.- P. 849-856.
10. Spath, H. Cluster Analysis Algorithms / H. Spath.- Chichester: Ellis Horwood.- 1989.- P. 226.
© Волков В. A., 2020