DATA MINING - МЕТОДЫ И АЛГОРИТМЫ, КРАТКИЙ ОБЗОР

Фридман Ольга Владимировна

Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 91-103.

Transactions of the Ко1а Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 91-103.

Научная статья УДК 004.832

DOI: 10.37614/2307-5252.2021.5.12.008 Ольга Владимировна Фридманн

Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия ofridman@iimm.ruя

DATA MINING - МЕТОДЫ И АЛГОРИТМЫ, КРАТКИЙ ОБЗОР Аннотация

В статье приведен краткий обзор методов и алгоритмов Data Mining, которые используются при решении различных задач, где приходится обрабатывать как количественные, так и качественные данные. Целью обзора является краткое описание методов и алгоритмов, а так же перечисление источников, в которых они описаны подробно. Рассмотрены особенности существующих подходов к решению подобных задач, проведен анализ современных методов решения задач Data Mining. Ключевые слова:

технология Data Mining, формализованные методы, методы неформального анализа, количественный и качественный анализ данных Финансирование

Исследование выполнено при финансовой поддержке РФФИ в рамках научнного проекта № 20-07-00708a.

Для цитирования: Фридман О. В. Data mining - методы и алгоритмы, краткий обзор // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 91-103. http://dx/doi.org/10.37614/2307-5252.2021.5.12.008.

Original article

DATA MINING - METHODS AND ALGORITHMS, SUMMARY Olga V. Fridmanя

Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia ofridman@iimm.ruя

Abstract

The article provides a brief overview of Data Mining methods and algorithms which are used in solving various tasks where both quantitative and qualitative data have to be processed. The purpose of the review is a brief description of the methods and algorithms, as well as a list of sources in which they are described in detail. The features of existing approaches to solving such problems are considered, the analysis of modern methods for solving Data Mining problems is carried out. Keywords:

Data Mining technology, formalized methods, methods of informal analysis, quantitative and qualitative data analysis Funding

The study was carried out with the financial support of the Russian Foundation for Basic Research within the framework of the scientific project No. 20-07-00708a.

For citation: Fridman O. V. Data mining - methods and algorithms, summary // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 91-103. http://dx/doi.org/10.37614/2307-5252.2021.5.12.008.

Введение

Data Mining (дословно добыча данных) - на русский язык чаще переводится как «анализ данных». При переводе термина «Data Mining» на русский язык используют различные варианты: добыча данных, извлечение данных, интеллектуальный анализ данных, обнаружение знаний в базах данных и др. По мнению многих авторов не существует «неинтеллектуального» анализа данных, см. например [1]. Методы Data Mining предназначены для обнаружения и обработки знаний и данных в различных предметных областях, которые могут быть использованы при принятии решений.

Data Mining представляет собой совокупность различных методов, таких как классический статистический анализ, корреляционно-регрессионный анализ кластерный анализ и др. и использует современные информационные технологии. Достоинством и привлекательностью методов Data Mining является возможность обработки как количественных, так и качественных данных.

Современные методы Data Mining основаны на теории искусственного интеллекта (ИИ). Их можно подразделить на методы, которые направлены на получение описательных результатов (итеративные методы кластерного анализа, самоорганизующиеся карты Кохонена, методы визуализации) и методы, позволяющие проводить прогнозирование, заполнять «лакуны» в неполных или недостоверных исходных данных. К прогностическим методам относят нейронные сети, деревья решений, линейную регрессию, метод ближайшего соседа, метод опорных векторов и др.

Теперь кратко рассмотрим некоторые методы и алгоритмы Data Mining.

Байесовская классификация

В работе [2] наивные байесовские классификаторы описывают как семейство простых «вероятностных классификаторов», которые применяются на основе теоремы Байеса с независимостью предположений между функциями. Это одни из самых простых байесовских сетевых моделей, которые могут обеспечить высокий уровень точности. Наивный алгоритм Байеса не всегда является собственно байесовским.

В работе [3] описано применение байесовской классификации в экспертных системах. Работа [4] дает представление о «прозрачных» моделях и применении метода для решения задач классификации.

В работе [5] приводятся свойства наивной классификации и достоинства байесовских сетей как метода Data Mining, такие как: интерпретируемость, быстрота, масштабируемость и др.

В работах [4, 6] описаны недостатки Наивного байесовского алгоритма, такие как: сложность в обработке непрерывных переменных (их предварительно необходимо шкалировать), вынужденная избыточность описания значений атрибутов для получения обучающего набора данных, сложность применения для реальных задач из-за невозможности иметь набор функций, полностью независимых друг от друга и др.

Применение наивной байесовской классификации представлено во многих работах, например в [7, 8]. Приведем краткий перечень областей, где этот метод успешно применяется: прогнозирование в реальном времени, классификация текста, фильтрация спама, фильтрация невидимой информации, прогнозирование погоды и др.

Метод опорных векторов

В работе [9] описана группа методов, которая позволяет проводить классификацию при помощи определения границ областей т.н. опорных векторов. К этой группе методов относится метод опорных векторов (Support Vector Machine - SVM). Этот метод позволяет решать задачи бинарной классификации. Согласно [9], метод использует понятие плоскостей решений (plane), при помощи которого объекты, относящиеся к разным классам, отделяются друг от друга т.н. плоскостью решения. При работе метода производится поиск плоскости, разделяющей два множества объектов, относящихся к разным классам. Опорные вектора представляют собой образцы, находящиеся на границах между двумя классами. Классификация считается успешной, если область между границами пуста.

В качестве примера алгоритма, реализующего метод опорных векторов обычно приводят линейный SVM алгоритм (Support Vector Machines). При применении этого алгоритма производится поиск объектов, которые попадают в область вблизи линии разделения (т.е. являются опорными векторами). Между ними вычисляется расстояние и расстояние до разделяющей плоскости, которое называют зазором. Необходимо найти такую гиперплоскостью, для которой этот зазор будет максимально большим. Метод успешно применяется при решении задач классификации для линейно разделимых наборов данных, в случае линейной неразделимости исходных наборов данных применяют т.н. алгоритмом с мягким зазором (soft-margin SVM), где позволяются ошибки на обучающей выборке Недостатком метода является то, что при проведении классификации используется только та часть образцов, которая находится на границах. Достоинством метода является то, что для его работы достаточно небольшого набора исходных данных, что позволяет примененять его при решении различных задач, где данные бывают неполными, недостоверными и т.п. [10].

Деревья решений

Деревья решений [9] представляют собой иерархические древовидные структуры, позволяющие автоматически генерировать в процессе обучения на обучающем множестве решающие правила формата «Если ..., то ...», деревья решений являются моделями, строящимися на основе обучения с учителем. Для примеров из обучающего множества задается целевое значение целевой переменной. Если эта целевая переменная является дискретной и представляет собой метку класса, то модель называют деревом классификации, а если непрерывной, то деревом регрессии.

Решающие правила представляются в виде иерархической структуры, состоящей из элементов двух типов - узлов (node), где находятся решающие правила и производится проверка соответствия примеров каждому правилу, и листьев (leaf), определяющих решение для каждого попавшего в лист примера, и представляющих собой либо класс, ассоциируемый с узлом (для дерева

классификации), либо соответствующий листу интервал целевой переменной (для дерева регрессии). Путь в дереве к каждому листу единственный, соответственно каждый пример из обучающего множества может попасть только в один лист, что обеспечивает единственность решения.

В работах [11, 12] были сформулированы идеи, послужившие основой для деревьев решений. Далее развитие деревьев решений пошло по пути разработки алгоритмов: разработан алгоритм ID3 (Iterative Dichotomizer 3). Этот алгоритм предназначен для работы с дискретной целевой переменной, поэтому как указано выше, деревья решений, построенные с помощью данного алгоритма, являются классифицирующими. В дальнейшем разработаны усовершенствованные модификации этого алгоритма С4.5 и С5.0 [13], в которые добавлена возможность работы с пропущенными значениями атрибутов. Далее был предложен алгоритм CART (Classification and Regression Tree), алгоритм обучения деревьев решений, использующий и дискретную и непрерывную целевые переменные, таким образом этот алгоритм позволяет решать как задачи классификации, так и регрессии [14].

Недостатком метода деревьев решений является то, что результат его работы зависит как от выбора алгоритма, так и от набора исследуемых данных. Для того, чтобы построить качественную модель, необходимо изначально понимать взаимосвязи между переменными (что всегда является трудной задачей) и располагать достаточным набором данных.

Деревья решений применяются при анализе данных и машинном обучении, для поддержки процессов принятия управленческих решений, используемая в статистике и др.

Методы кластерного анализа

Кластерный анализ является одним из популярных методов Data Mining. Этот метод предназначен для разбиения множества исходных данных на группы (кластера), таким образом, чтобы элементы, входящие в одну группу, были однородными (максимально «схожими»), а элементы из разных групп были разнородными (максимально «отличными» друг от друга).

Методы кластерного анализа можно разделить на иерархические при работе которых происходит последовательное объединение меньших кластеров в большие (агломеративные алгоритмы) или разделении больших кластеров на меньшие (дивизимные алгоритмы), и неиерархические методы, которые применяются при большом количестве наблюдений. Эти методы используют итеративные процедуры разделения исходной совокупности данных. Новые кластеры будут формироваться до тех пор, пока не будет выполнено некоторое заранее заданное правило остановки.

Для разбиения массива исходных данных на кластера используют различные «метрики» (меры близости объектов). Выбор метрики изначально является суъективным решением исследователя, что является как преимуществом, так и недостатком кластерного анализа.

Перечислим наиболее популярные метрики, используемые в иерархических методах кластерного анализа: расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров, расстояние дальнего соседа - расстояние между самыми дальними объектами кластеров, расстояние между центрами тяжести - расстояние между центральными точками кластеров,

квадрат евклидова расстояния, Манхэттенское расстояние, расстояние Чебышева и др.

Наиболее часто используемыми иерархическими алгоритмами кластерного анализа являются, например Метод Варда (Ward's method), который описан в работе [15], метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages) UPGMA, представленный в работе [16], метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages) WPGMA [16], невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average) [16], взвешенный центроидный метод (метод взвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average) WPGMC [16] и др.

Если количество наблюдений является большим, то иерархические методы кластерного анализа не могут быть использованы. В таких случаях используют неиерархические методы.

В работе [17] приведено наиболее полное описание алгоритма ^-средних (£-means), который также называют быстрым кластерным анализом. Так же, стоит упомянуть алгоритм PAM (partitioning around Medoids), который является модификацией алгоритма ^-средних, алгоритмом ^-медианы (^-medoids).

Даже из названий алгоритмов следует, что основное различие между ними состоит в использовании различных межклассовых и внутриклассовых расстояний.

В работе [18] представлены алгоритмы кластеризации, способные обрабатывать сверхбольшие базы данных. В настоящее время разработаны алгоритмы, в которых методы иерархической кластеризации сочетаются с другими методами. К таким алгоритмам относятся: BIRCH [19], WaveCluster [20], Алгоритм Clarans (Clustering Large Applications based upon RANdomized Search) [21], алгоритм DBScan [22] и др. Недостатком этих алгоритмов является то, что упомянутые алгоритмы требуют больших вычислительных ресурсов [23], так как обрабатывают большие объемы данных.

Большинство современных пакетов прикладных программ для статистической обработки многомерных данных включают в себя различные методы кластерного анализа.

Ассоциативные правила

В настоящее время метод поиска ассоциативных правил является одним из методов Data Mining, предназначенным для обнаружения знаний, применение алгоритмов которого дает возможность производить поиск в базах данных.

По аналогии с представлением знаний в базах знаний продукционных экспертных систем, ассоциативное правило имеет вид: «ЕСЛИ имеет место событие А, ТО из этого следует событие В», то есть формулируется на языке, близком к естественному и интуитивно понятным образом. Таким образом, подобное правило для базы данных можно переформулировать в виде: «Если в транзакции имеется набор элементов A , то в этой же транзакции должен появиться набор элементов В». Проведение такого анализа позволяет находить правила, которые называют ассоциативными и являются простыми и понятными.

В методе поиска ассоциативных правил используются понятия поддержки, которое является мерой надежности, с которой ассоциативное правило выражает ассоциативную связь между условием и следствием, и достоверности - это показатель, характеризующий уверенность в том, появление события A влечёт за собой появление события B. При применении алгоритмов поиска ассоциативных правил находятся все правила, для которых эти показатели должны быть выше некоторых заранее заданных порогов (минимальной поддержки и минимальной достоверности).

Приведем краткое описание некоторых алгоритмов поиска ассоциативных правил.

Алгоритм AIS. считается первым алгоритмом поиска ассоциативных правил [24, 25]. В этом алгоритме во время сканирования базы данных генерируются множества наборов посылок и следствий, которые служат материалом для формирования ассоциативных правил.

Алгоритм SETM. Отличается от алгоритма AIS тем, что при его создании использован язык SQL. Так же как и в алгоритме AIS, формируются наборы наборов посылок и следствий на основе на преобразований базы данных. Недостатком обоих алгоритмов является избыточное генерирование наборов, частота встречаемости которых оказывается низкой.

Алгоритм Apriori [26] был создан, чтобы устранить этот недостаток. Алгоритм Apriori уменьшает количество наборов, (априори) отсекая наборы с низкой частотой встречаемости. Это процедура основана на предположении, что у набора с высокой частотой встречаемости все подмножества так же должны иметь высокую частоту встречаемости. Поэтому, если в наборе находится хотя бы одно подмножество, частота встречаемости которого была определена как низкая, этот набор уже не включается в рассмотрение. Разновидности алгоритма Apriori, такие как AprioriTID и AprioriHybrid, были предложены как развитие исходного алгоритма.

В дальнейшем были разработаны алгоритмы, усовершенствующие алгоритм Apriori: алгоритм DHP, который называют алгоритмом хеширования [27], где сокращение обеспечивается за счет того, что каждый из наборов-кандидатов помимо шага сокращения проходит шаг хеширования; алгоритм PARTITION, где при сканировании транзакционной базы данных производится ее разделение на непересекающиеся разделы [28, 29]; алгоритм DIC (Dynamic Itemset Counting), где база данных разбивается на несколько блоков и затем циклически сканируется [30].

Алгоритмы ассоциативных правил нашли применение в различных предметных областях, например: в розничной торговле - для выявления групп покупателей и общих характеристик клиентов компании, определения товаров, которые стоит продвигать, прогнозирования спроса, анализа потребительской корзины, в маркетинге - для поиска рыночных сегментов, тенденций покупательского поведения, при проведении анализа Web-логов и т.п.

Анализ формальных понятий

Анализ формальных понятий (АФП) является разновидностью формального концептуального анализа (Formal Concept Analysis, FCA), это раздел теории решеток, применяемый для решения прикладных задач [31]. Его можно использовать для анализа простых таблиц объектов атрибутов (называемых

контекстом в FCA) и изучения различных зависимостей между атрибутами. АФП является одной из популярных алгебраических парадигм для представления и анализа объектно-признаковых данных со множеством приложений в майнинге данных, машинном обучении, интернет-математике, информационном поиске, анализе социальных сетей и эпистемических сообществ, криминалистике, информационной безопасности, в онтологическом моделировании и представлении знаний и др. [31]. В работе [32] сформулированы основные идеи АФП, а наиболее полное изложение по АФП приведено в [33].

Модели представления, выявления и интенсивной обработки знаний описываются в работе [34], в [35] описано применение АФП в научно-исследовательских и промышленных проектах. В работе [36] описаны связи АФП с нахождением ассоциативных правил, машинным обучением, теорией «грубых» и нечётких множеств и другими. В работе [37] описывается применение АФП при построении онтологий и использованием онтологий в приложениях АФП. В работе [38] показано, как метод АФП может быть использован для пополнения баз знаний, а в работе [39], как и в [37], описано применение АФП для построения онтологий. В работе [40] описан подход прототипирования в онтологической инженерии и предлагается использовать АФП для построения небольших персональных и специальных онтологий. В работе [41] описан подход к определению концептуальной устойчивости для построения таксономий пользователей веб-сайтов с использованием АФП.

Объектно-признаковые зависимости могут быть визуализированы с использованием метода АФП при помощи диаграммы решётки формальных понятий [31]. Основой решеток формальных понятий является соответствие Галуа, которое задается на множестве объектов и признаков и обладает свойством уменьшения объёма с ростом содержания [42].

АФП является популярной алгебраической парадигмой для представления и анализа объектно-признаковых данных со множеством приложений в майнинге данных, машинном обучении, Интернет-математике, информационном поиске, анализе социальных сетей и эпистемических сообществ, криминалистике, информационной безопасности др.

Заключение

Проведен краткий обзор методов и алгоритмов Data Mining, проанализированы их достоинства и недостатки. Целью обзора является краткое описание методов и алгоритмов, а также перечисление источников, в которых они описаны подробно. Рассмотрены особенности существующих подходов к решению задач, требующих обрабатывать как количественные, так и качественные данные, проведен анализ современных методов решения задач Data Mining. Описанные в статье методы Data Mining применялись при решении прикладных задач в ходе выполнения работ по темам НИР ИИММ КНЦ РАН. Кроме описанных методов, были апробированы и другие методы Data Mining, в частности нейронные сети, иерархические методы кластерного анализа и др., применение которых дало лишь предварительные результаты.

Для проведения исследований необходимо применять программные реализации методов Data Mining, такие как SPSS, SAS, STATGRAPHICS, Statistica, др. Эти программные продукты предоставляют возможность реализации набора методов Data Mining, что позволяет сравнить полученные

результаты и выбрать наиболее приемлемый. При проведении исследований использовались такие программные приложения как Statistica (кластерный анализ, деревья решений, нейронные сети), Обозреватель концепций ConExp (анализ формальных понятий, поиск ассоциативных правил) и др.

Методы Data Mining широко применяются в группах бизнес-аналитики и анализа данных, помогая извлекать знания для решения прикладных задач в различных отраслях, таких как продажи и маркетинг, образование, интеллектуальный анализ процессов (Process Mining) и др. Большинство исследователей, применяющих в работе методы Data Mining отмечают, что их достоинствами являются точность, проверяемость, быстрота, интерпретируемость, масштабируемость и наглядное представление результатов вычислений. Наличие этих достоинств объясняет популярность методов Data Mining.

Список литературы

1. Дьяконов А. Г. Некоторые задачи дискретной математики, возникающие в современных приложениях при анализе данных // Spectral and Evolution Problems, 2012. т. 22. С. 66-75.

2. Щавелёв Л. В. Способы аналитической обработки данных для поддержки принятия решений СУБД // Системы управления базами данных, 1998. № 4-5.

3. Chickering D., Geiger D., Heckerman D. Learning Bayesian networks: The combination of knowledge and statistical data Machine Learning. 1995. № 20. Pp. 197-243.

4. Heckerman D. Geiger D., Chickering D.M. Learning Bayesian networks: the combination of knowledge and statistical data. Machine Learning, 1995. № 20. Pp. 131-163.

5. Heckerman D. Bayesian Networks for Data Mining Data Mining and Knowledge Discovery. 1997. № 1. Pp. 79-119.

6. Friedman N., Geiger D., Goldszmidt M. Bayesian Network Classifiers Machine Learning. 1997. № 29. Pp. 131-165.

7. Минский М. Шаги к искусственному интеллекту // Proceedings ofthe IRE. 1961. № 49. С. 8-30.

8. Mehta M., Shafer J., Agrawal R. SPRINT: A Scalable Parallel Classifier for Data Mining // Proceedings of the 22nd Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1996, Pp. 544-555.

9. Чубукова И. Data Mining [Электронный ресурс] // НОУ ИНТУИТ [NOU INTUIT], URL https://loginom.ru/blog/decision-tree-p1. (дата обращения: 18.11.2021).

10.B. Scholkopf, G. Ratsch, K. Muller, K. Tsuda, S. Mika An Introduction to KernelBased Learning Algorithms // Proceedings of the IEEE Neural Networks, 2001. № 12(2). Pp. 181-201.

11.Hovland C. I. Computer simulation of thinking. American Psychologist, 1960. № 15(11). Pp. 687-693.

12.Hunt Earl B., Janet Marin, Philip J. Stone. Experiments in Induction. New York: Academic Press. 1966. ISBN 978-0-12-362350-8.

13.Quinlan J. R. Induction of decision trees. Machine Learning, 1986. № 1(1). Pp. 81106.

14.Quinlan J. Ross. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers, 1993.

15.Муртаг Ф., Лежандр П. Метод иерархической агломеративной кластеризации Уорда: какие алгоритмы реализуют критерий Уорда? // J Classif, 2014. № 31. Pp.274-295.

16.Sneath P. H. A. and Sokal R. R. Numerical Taxonomy: The Principles and Pratice of Numerical Classification. San Francisco: Freeman, 1973. 573 pp.

17.Hartigan J.A. and Wong M.A. Algorithm AS 136 A K-Means Clustering Algorithm // Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979. № 28. Pp. 100-108.

18.Ганти В., Герке И., Рамакришнан Р. Добыча данных в сверхбольших базах данных //Открытые системы, 1999. № 9-10.

19.Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // Proceedings of the 1996 ACM SIGMOD international conference on Management of data - SIGMOD '96. 1996.

20.Факторный дискриминантный и кластерный анализ: Пер. с англ. А. М. Хотинского, С. Б. Королева; Под ред. И. С. Енюкова. М.: Финансы и статистика, 1989. 215 с.

21.Мусаев А.А Алгоритмы аналитического управления производственными процессами // Автоматизация в промышленности, 2004. № 1. С. 30-35.

22.Swami A., Agrawal R., Imielinski T. Mining Associations between Sets of Items in Massive Databases // Proceedings of the ACM-SIGMOD 1993 Int'l Conference on Management of Data, Washington D.C., 1993.

23.Agrawal R., Srikant R. Fast Algorithms for Mining Association Rules // Proceedings of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, 1994.

24.Savasere A., and Navathe S., Omiecinski E. An Efficient Algorithm for Mining Association Rules in Large Databases // Proceedings of the 21st Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1995. Pp. 432-444.

25.Savasere A., and Navathe S., Omiecinski E. An Efficient Algorithm for Mining Association Rules in Large Databases // Proceedings of the 21st Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1995. Pp. 432-444.

26.Brin S. et al. Dynamic Itemset Counting and Implication Rules for Market Basket Data // Proceedings of the ACM SIGMOD Int'l Conf. Management of Data, ACM Press, New York, 1997. Pp. 255-264.

27.Chen M., Park J. and Yu P. Efficient data mining for path traversal patterns // IEEE, Transactions on knowledge and data engineering, 1998. Pp. 209-221.

28.Savasere A., Omiecinski E., and Navathe S. An efficient algorithm for mining association rules in large databases // Proceedings of the 1995 Int. Conf. Very Large Data Bases (VLDB'95), Google Scholar, Zurich, Switzerland, 1995. Pp. 432-443.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

29.Chernoff H. The Use of Faces to Represent Points in K-Dimensional Space Graphically // Journal of American Statistical Association, 1973. № 68. Pp. 361368.

30.Brin S., Motwani R., Ullman J.D. and Tsur, S. Dynamic Itemset Counting and Implication Rules for Market Basket Data // Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, 13-15 May, 1997, Pp. 265-276.

31.Игнатов Д.И. Анализ формальных понятий: от теории к практике // Доклады всероссийской научной конференции АИСТ'12 «Анализ изображений, сетей и

текстов. Модели, алгоритмы и инструменты анализа данных; результаты и возможности для анализа изображений, сетей и текстов». Екатеринбург, Открытые системы, 2012. С. 3-15.

32.Wille R. Restructuring Lattice Theory: an Approach Based on Hierarchies of Concepts // Ordered Sets, Ed. by I. Rival. Dordrecht, Boston: Reidel, 1982. Pp. 445470.

33.Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations // Berlin; Heidelberg: Springer Verlag, 1999.

34.Игнатов Д.И., Кононыхина О.Н. Решетки формальных понятий для анализа данных социологических опросов // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов V-й Международной научно-технической конференции. М.: Физматлит, 2009. Т1. 546 с.

35.Hereth J., Stumme G. Advances in Formal Concept Analysis for Knowledge Discovery in Databases, Seite 1-2. Lyon, France, 2002.

36.Doerfel S., Jaschke R., and Stumme G. Formal Concept Analysis, of Lecture Notes in Artificial Intelligence, Berlin/Heidelberg, Springer, 2012. vol. 7278. Pp. 77-95.

37.Cimiano P., Hotho A., Stumme G., Tane J. Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies // Proceedings of the The Second International Conference on Formal Concept Analysis ICFCA 04, Springer, 2004. vol. 2961.

38.Baader F. and Sertkaya B. Applying formal concept analysis to description logics. In P. Eklund editor // Proceedings of the 2nd International Conference on Formal Concept Analysis (ICFCA 2004), of Lecture Notes in Computer Science, SpringerVerlag, 2004. vol. 2961. Pp. 261-286.

39.Cimiano P., Hotho A. & Staab S. Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis // Journal of Artificial Intelligence Research, 2005. № 24.Pp.305-339.

40.Richards D. Ad-Hoc and Personal Ontologies: A Prototyping Approach to Ontology Engineering. A. Hoffmann et al. (Eds.): PKAW, LNAI, Springer, 2006. vol. 4303. Pp.13-24.

41.Kuznetsov S., Ignatov D. Concept Stability for Constructing Taxonomies of Website Users // Proceedings of the Satellite Workshop "Social Network Analysis and Conceptual Structures: Exploring Opportunities" at ICFCA'07, Clermont-Ferrand, France, 2007. Pp. 19-24.

42.Бернхард Г., Штумме Г. Анализ формальных понятий: основы и приложения, Лекционные заметки по искусственному интеллекту, Springer-Verlag, под ред. Р.Вилле, 2005. № 3626. ISBN 3-540-27891-5.

References

1. Diakonov A. G. Necotoria zadachi discrete mathematics, voznikayushchie vie sovremennykh prilozheniyakh pri analysis dannykh [Some problems of discrete mathematics, arising in modern applications in data analysis]. Spectral and Evolution Problems, 2012, Vol. 22, pp. 66-75. (In Russ.).

2. Shchavelev L. V. Sposobidae analytical obrabotk dannykh dlapodderzkiprinyatiya reshenii subd [Methods of analytical processing of data for support of decisionmaking DBMS]. Systems upravlenia bazami dannykh, 1998, No. 4-5. (In Russ.).

3. Chickering D., Geiger D., Heckerman D. Learning Bayesian networks: The combination of knowledge and statistical data Machine Learning. 1995, No. 20. pp. 197-243.

4. Heckerman D. Geiger D., Chickering D.M. Learning Bayesian networks: the combination of knowledge and statistical data. Machine Learning, 1995, No. 20, pp. 131-163.

5. Heckerman D. Bayesian Networks for Data Mining Data Mining and Knowledge Discovery. 1997, No. 1, pp. 79-119.

6. Friedman N., Geiger D., Goldszmidt M. Bayesian Network Classifiers Machine Learning. 1997, No. 29, pp. 131-165.

7. Minsky M. Shaghi k iskusstvennomu intellectu [Steps to Artificial Intelligence]. Proceedings ofthe IRE. 1961, No. 49, pp. 8-30. (In Russ.).

8. Mehta M., Shafer J., Agrawal R. SPRINT: A Scalable Parallel Classifier for Data Mining. Proceedings of the 22nd Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco. 1996, pp. 544-555.

9. Chubukova I. Data Mining [Data Mining]. NOU INTUIT [NOU INTUIT], Available at https://loginom.ru/blog/decision-tree-p1. (accessed 18.11.2021).

10.B. Scholkopf, G. Ratsch, K. Muller, K. Tsuda, S. Mika An. Introduction to KernelBased Learning Algorithms. Proceedings of the IEEE Neural Networks, 2001, No. 12(2), pp. 181-201.

11.Hovland C. I. Computer simulation of thinking. American Psychologist, 1960, No. 15(11), pp. 687-693.

12.Hunt Earl B., Janet Marin, Philip J. Stone. Experiments in Induction. New York: Academic Press, 1966.

13.Quinlan J. R. Induction of decision trees. Machine Learning, 1986, No. 1(1), pp. 81-106.

14.Quinlan J. Ross. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers, 1993.

15.Murtag F., Legendre P. Method ierarchical aglomerative klasterization Whard: kakie algorithms realizuyut kriterius Wharda? [Ward's method of hierarchical agglomerative clustering: which algorithms implement Ward's criterion?]. J Classif, 2014, No. 31, pp. 274-295. (In Russ.).

16.Sneath P. H. A. and Sokal R. R. Numerical Taxonomy: The Principles and Pratice of Numerical Classification. San Francisco: Freeman, 1973, 573 p.

17.Hartigan J.A. and Wong M.A. Algorithm AS 136 A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, No. 28, pp.100-108.

18.Ganti V., Gerke Y., Ramakrishnan R. Dobycha dannykh vie supercollus bazakh dannykh [Data Mining in Ultra-Large Databases]. Open Systems, 1999, No. 9-10. (In Russ.).

19.Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases. Proceedings of the 1996 ACM SIGMOD international conference on Management of data - SIGMOD '96, 1996.

20.Factor discriminant i klasterny analysis [Factor discriminant and cluster analysis]. Moscow, Finansy i statistik, 1989. 215 p. (In Russ.).

21.Musaev A.A. Algorithms analytical upravlenia proizvodstvennymi protsessamy [Algorithms of analytical management of production processes]. Automation in industry, 2004, No. 1, pp. 30-35. (In Russ.).

22.Swami A., Agrawal R., Imielinski T. Mining Associations between Sets of Items in Massive Databases. Proceedings of the ACM-SIGMOD 1993 Int'l Conference on Management of Data, Washington D.C., 1993.

23.Agrawal R., Srikant R. Fast Algorithms for Mining Association Rules. Proceedings of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, 1994.

24.Savasere A., and Navathe S., Omiecinski E. An Efficient Algorithm for Mining Association Rules in Large Database. Proceedings of the 21st Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1995, pp. 432-444.

25.Savasere A., and Navathe S., Omiecinski E. An Efficient Algorithm for Mining Association Rules in Large Databases. Proceedings of the 21st Int'l Conf. Very Large Data Bases, Morgan Kaufmann, San Francisco, 1995, pp. 432-444.

26.Brin S. et al. Dynamic Itemset Counting and Implication Rules for Market Basket Data. Proceedings of the ACM SIGMOD Int'l Conf. Management of Data, ACM Press, New York, 1997, pp. 255-264.

27.Chen M., Park J. and Yu P. Efficient data mining for path traversal patterns. IEEE, Transactions on knowledge and data engineering, 1998, pp. 209-221.

28.Savasere A., Omiecinski E., and Navathe S. An efficient algorithm for mining association rules in large databases. Proceedings of the 1995 Int. Conf. Very Large Data Bases (VLDB'95), Google Scholar, Zurich, Switzerland, 1995, pp. 432-443.

29.Chernoff H. The Use of Faces to Represent Points in K-Dimensional Space Graphically. Journal of American Statistical Association, 1973, No. 68, pp. 361-368.

30.Brin S., Motwani R., Ullman J.D. and Tsur, S. Dynamic Itemset Counting and Implication Rules for Market Basket Data. Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, 13-15 May, 1997, pp. 265-276.

31.Ignatov D.I. Analysis formalnykhponyatiy: ot theory kpractice [Analysis of formal concepts: from theory to practice]. Doklady vserossiyskoy nauchnoy konferentsii AIST'12 "Analiz izobrazheniy, setey i tekstov. Modeli, algoritmy i instrumenty analiza dannykh; rezul'taty i vozmozhnosti dlya analiza izobrazheniy, setey i tekstov". [Reports of the All-Russian scientific conference AIST'12."Analysis of images, networks and texts. Models, algorithms and data analysis tools; results and capabilities for the analysis of images, networks and texts"]. Ekaterinburg, Open Systems, 2012, pp. 3-15. (In Russ.).

32.Wille R. Restructuring Lattice Theory: an Approach Based on Hierarchies of Concepts. Ordered Sets, Ed. by I. Rival. Dordrecht, Boston: Reidel, 1982, pp. 445470.

33.Ganter B., Wille R. Formal Concept Analysis: Mathematical Foundations. Berlin; Heidelberg: Springer Verlag, 1999.

34.Ignatov D.I., Kononykhina O.N. Reshetki formalnykh ponyatiy dla analysis dannykh sotsiological oprosov [Lattices of formal concepts for the analysis of sociological survey data]. Integrated models and soft calculations in artificial intelligence. Collection of scientific works of the V-th International Scientific and Technical Conference. Moscow, Fizmatlit, 2009, Vol. 1, 546 p. (In Russ.).

35.Hereth J., Stumme G. Advances in Formal Concept Analysis for Knowledge Discovery in Databases. Seite 1-2. Lyon, France, 2002.

36.Doerfel S., Jäschke R., and Stumme G. Formal Concept Analysis, of Lecture Notes in Artificial Intelligence. Berlin/Heidelberg, Springer, 2012, Vol. 7278, pp. 77-95.

37.Cimiano P., Hotho A., Stumme G., Tane J. Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies. Proceedings of the The Second International Conference on Formal Concept Analysis ICFCA 04, Springer, 2004, Vol. 2961.

38.Baader F. and Sertkaya B. Applying formal concept analysis to description logics. In P. Eklund editor. Proceedings of the 2nd International Conference on Formal Concept Analysis (ICFCA 2004), of Lecture Notes in Computer Science, SpringerVerlag, 2004, Vol. 2961, pp. 261-286.

39.Cimiano P., Hotho A. & Staab S. Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis. Journal of Artificial Intelligence Research, 2005, No. 24, pp. 305-339.

40.Richards D. Ad-Hoc and Personal Ontologies: A Prototyping Approach to Ontology Engineering. PKAW, LNAI, Springer, 2006, Vol. 4303, pp. 13-24.

41.Kuznetsov S., Ignatov D. Concept Stability for Constructing Taxonomies of Website Users. Proceedings of the Satellite Workshop "Social Network Analysis and Conceptual Structures: Exploring Opportunities" at ICFCA'07, Clermont-Ferrand, France, 2007, pp. 19-24.

42.Bernhard G., Stumme G. Analiz formal'nykh ponyatiy: osnovy i prilozheniya, Lektsionnyye zametki po iskusstvennomu intellektu [Analysis of formal concepts: foundations and applications, Lecture notes on artificial intelligence], SpringerVerlag, ed. by R. Wille, 2005, No. 3626. (In Russ.).

Сведения об авторе

О.В. Фридман — кандидат технических наук, старший научный сотрудник ИИММ КНЦ

РАН.

Information about the author

O.V. Fridman — Candidate of Science (Tech.), Senior Research Fellow of the Institute for

Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of

Sciences.

Статья поступила в редакцию 15.11.2021; одобрена после рецензирования 20.11.2021;

принята к публикации 08.12.2021.

The article was submitted 15.11.2021; approved after reviewing 20.11.2021; accepted

for publication 08.12.2021.

DATA MINING - МЕТОДЫ И АЛГОРИТМЫ, КРАТКИЙ ОБЗОР Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фридман Ольга Владимировна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фридман Ольга Владимировна

DATA MINING - METHODS AND ALGORITHMS, SUMMARY

Текст научной работы на тему «DATA MINING - МЕТОДЫ И АЛГОРИТМЫ, КРАТКИЙ ОБЗОР»