Развитие методов семантической фильтрации на основе решения задачи кластеризации биоинспирированными алгоритмами

Марков Владимир Васильевич; Кравченко Юрий Алексеевич; Кузьмина Мария Анатольевна

УДК 004.62 DOI 10.23683/2311-3103-2018-4-175-185

В.В. Марков, Ю.А. Кравченко, М.А. Кузьмина

РАЗВИТИЕ МЕТОДОВ СЕМАНТИЧЕСКОЙ ФИЛЬТРАЦИИ НА ОСНОВЕ РЕШЕНИЯ ЗАДАЧИ КЛАСТЕРИЗАЦИИ БИОИНСПИРИРОВАННЫМИ

АЛГОРИТМАМИ*

Данная статья посвящена решению проблемы развития теоретических основ управления знаниями для создания междисциплинарных интеллектуальных информационных систем семантического поиска, способствующих развитию перспективных направлений информатики и информационных технологий, связанных с решением проблем интеграции знаний из неоднородных распределенных источников знаний, идентификации предметной области и концептуального моделирования, анализа и извлечения данных. Актуальность решения данной проблемы заключается в расширении прикладных областей применения разрабатываемых интеллектуальных информационных систем для целого ряда актуальных задач из класса NP-сложных. В предложенной статьей рассмотрена задача кластеризации. С целью повышения эффективности и качества решения задач управления знаниями предлагаются модифицированные алгоритмы кластеризации, основанные на использовании биоинспирированных подходов. Разработанные модификации алгоритмов позволят повысить качество получаемых решений. Данные исследования в области семантического поиска составляют важное научное направление в рамках проблемы развития технологий управления знаниями. В статье рассмотрено решение задачи кластеризации при помощи биоинспирированных алгоритмов. Предложены два новых алгоритма кластеризации: комбинированный алгоритм на основе алгоритма пчелиного роя и алгоритма k-means, а также муравьиный алгоритм кластеризации. Для исследования полученных алгоритмов, их эффективности и качества результатов, были разработаны программные модули, моделирующие предложенные алгоритмы. Произведен анализ полученных результатов, сравнение с классическим алгоритмом, сделаны выводы об эффективности новых алгоритмов.

Семантическая фильтрация; кластеризация; биоинспирированные алгоритмы; управление знаниями; модификация, комбинирование.

V.V. Markov, Yu.A. Kravchenko, M.A. Kuzmina

DEVELOPMENT OF SEMANTIC FILTERING METHODS BASED ON SOLVING THE TASK OF CLUSTERING BY BIOINSPIRED ALGORITHMS

This article is devoted to solving the problems of theoretical knowledge management foundation development for the creation of multi-disciplinary intellectual information systems, semantic search, promoting the development of science promising areas and information technologies related to solving the problems of knowledge integration from heterogeneous distributed sources, the identification of the subject area and conceptual modeling, analysis and retrieval data. The urgency of solving this problem is to expand the application areas of application developed intelligent information systems for a range of class NP- complex urgent tasks. The proposed article considers the clustering problem. In order to improve the efficiency and quality of knowledge management solutions offered are the modified tasks clustering algorithms based on using bioinspired approaches. The developed modifications of the algorithms improve the quality of the solutions obtained. These studies in the field of semantic search constitute an important scientific direction within the framework of the problem of the knowledge management technologies development. The solution of the problem of clustering by means of using of bioinspired algorithms is considered herein. The following two new clustering algorithms: a combined algorithm based on the Artificial Bee Colony algorithm and the k-means algorithm, as well as the Ant clustering algorithm, are proposed. To study the algorithms obtained, their effectiveness and the results quality,

* Работа выполнена при поддержке РФФИ (проект № 16-07-00703).

software modules that simulate the proposed algorithms have been developed. The analysis of the obtained results, comparison with the classical algorithm, as well as conclusions about the effectiveness of new algorithms. are presented.

Semantic filtering; clustering; bioinspired algorithms; knowledge management; modification; combining.

Введение. Кластеризация данных - это процесс группировки данных в кластеры, при котором данные в одном кластере имеют высокую степень сходства, при этом максимально не похожи на данные из других кластеров [1-4]. Опишем значимость задачи кластеризации с точки зрения семантической фильтрации и идентификации. Особую сложность имеют задачи обработки семантического ядра в интеллектуальных информационных системах управления знаниями. Невозможно упорядочить «хаос» обрабатываемых поисковых запросов только лишь на основе отбора и анализа ключевых понятий и определений. Выходом из данной ситуации является группировка и кластеризация основных понятий и системы отношений между ними, а также множества зависимостей и закономерностей, построенных на основе данных отношений.

Кластеризация запросов - объединение ключевых понятий по их семантическому смыслу в контексте рассматриваемой предметной области или сегмента междисциплинарного информационного пространства для идентификации основного и дополнительного смысла исследуемого информационного ресурса. Объективное определение семантического ядра и его кластеризация обеспечит релевантное построение системы неявных зависимостей и закономерностей на множестве отношений между элементами знаний в распределенных разнородных информационных ресурсах.

Кластеризация широко используется как в качестве отдельного инструмента анализа, так и как один из этапов предварительной обработки данных перед использованием других аналитических методов. Несмотря на важность задачи кластеризации, в виду ее сложности многие проблемы остаются нерешенными, в том числе проблема застревания алгоритмов кластеризации вблизи локальных оптимальных решений.

В последнее время широкую известность получили биоинспирированные алгоритмы. Биоинспирированные алгоритмы - это инновационная категория искусственного интеллекта, группа метаэвристических алгоритмов, вдохновленных интеллектуальным поведением групп насекомых или животных в природе: муравьиных колоний, птичьих стай, пчелиных колоний, бактерий и т.д. [2-10]. Эти алгоритмы набирают популярность благодаря их способности к решению задач, где нахождение оптимальных решений классическими алгоритмами (k-means, c-means) неэффективно или невозможно.

В данной работе предлагаются новые алгоритмы, позволяющие применить инновационные биоинспирированные алгоритмы к задаче кластеризации. Целью данной работы является разработать улучшенные алгоритмы кластеризации и решить проблему застревания решений вблизи локальных оптимумов, тем самым повысив качество кластеризации, за счет применения биоинспирированных алгоритмов.

1. Комбинированный алгоритм на основе k-means и алгоритма пчелиной колонии. Алгоритм k-means является достаточно быстрым из-за его простоты и небольшого числа итераций. Однако зависимость от изначальных центроидов и застревание в локальном оптимуме - серьезные проблемы алгоритма. С другой стороны, алгоритм пчелиной колонии выполняет глобальный поиск во всем пространстве решений. Если дано достаточно времени, алгоритм пчелиной колонии может выдавать глобальные качественные результаты. В данной главе предлагает-

ся новый комбинированный алгоритм, использующий достоинства этих двух алгоритмов. Новый алгоритм не зависит от начальных центроидов и может избежать попадания в локальное оптимальное решение.

Алгоритм пчелиной колонии (Artificial Bee Colony Algorithm, ABC) моделирует пространство поиска как среду кормления, где каждая точка в поисковом пространстве соответствует источнику пищи (решению), который пчелы могут использовать. Пригодность решения представляется как количество нектара в источнике пищи. В рамках этого алгоритма, в пчелиной колонии существуют три вида пчел: рабочие пчелы, пчелы-наблюдатели и пчелы-разведчики. Рабочие пчелы отвечают за конкретные источники пищи, которые они изучили до этого, и дают качественную информацию о пищевых источниках пчелам-наблюдателям. Пчелы-наблюдатели принимают информацию об источниках пищи, а затем выбирают источник для изучения и использования в зависимости от этой информации о качестве нектара. Чем больше нектара содержит источник пищи, тем больше вероятность, что пчелы-наблюдатели выберут именно его [3, 11-15].

В предлагаемом алгоритме каждый источник пищи в среде поиска представляет собой набор центроидов, т.е. источник пищи представляет собой одно возможное решение для кластеризации, а положение xi строится как:

где К - количество кластеров, Cj - у'-й центроид i-го источника пищи. Процедуру предложенного алгоритма можно описать следующим образом:

1. Произвольно инициализировать позиции источников пищи (наборов центроидов) и использовать алгоритм k-means для завершения задачи кластеризации для всех подготовленных позиций и вычислить значения пригодности каждой группы центроидов;

2. Найти новые источники пищи и обновить место источников пищи рабочими пчелами. Применить алгоритм k-means и принцип жадного выбора для оценки новых значений пригодности, затем сравнить их с начальными. Лучшие источники пищи будут доставлены пчелам-наблюдателям;

Чтобы измерить качество кластеризации источника пищи, необходимо определить функцию критерия качества кластеризации. В предлагаемом алгоритме в качестве критерия кластеризации и функции расчета пригодности каждого источника пищи (функции fitness) используется расстояние по Хеммингу, определяемое по формуле (2):

1. Вычислить значения вероятности для источников пищи и обновить их место в соответствии с вероятностными значениями, вычисленными пчелами-наблюдателями. Снова применить алгоритм &-теаш и принцип жадного выбора для завершения кластеризации, оценки новых значений пригодности и сравнения их с оригинальными для их обновлениями;

2. Проверить счетчик проб источников пищи и создать новый источник пищи (набор центроидов) в поисковом пространстве, для которого увеличить значение параметра «лимит».

Графически алгоритм представлен на рис. 1.

(1)

(2)

Рис. 1. Комбинированный пчелиный алгоритм кластеризации

Таким образом, в результате работы алгоритма на выход получаем оптимальный источник пищи, который представляет собой набор центроидов. Данный алгоритм повышает точность кластеризации за счет того, что изначальные центроиды генерируются не случайно, а отбираются на основе объективных оценок, с каждой итерацией становясь более качественными.

2. Муравьиный алгоритм кластеризации. Кластеризация с помощью муравьиного алгоритма - это распределенный процесс. В базовой модели муравьи представлены простыми агентами, которые случайным образом перемещаются в среде, представляющей собой квадратную сетку. Первоначально каждый объект данных (вектор) случайным образом распределяется по двумерному пространству. Элементы данных, которые разбросаны в этой среде, могут быть подобраны, перемещены и сброшены агентами с некоторой вероятностью [4, 16-20].

Предложенный алгоритм использует сетку с ячейками 5*5 для кластеризации, но искомые кластеры к ней не привязаны. Здесь к муравьев ищут к кластеров. Муравьи собирают объекты в своем списке грузов, поэтому нет необходимости в процессе сброса ноши. Количество ячеек должно быть больше, чем количество всех объектов. В начале кластеризации мы генерируем муравьев, в количестве равном количеству кластеров. Каждый муравей должен искать объекты одного кластера. Все муравьи движутся с разной скоростью по сетке. Максимальная скорость для всех муравьев определяется как:

5

Ртах = (3)

где 5 - сторона сетки.

Шаг движения каждого муравья генерируется случайным образом в интервале между 1 и Ртах перед началом каждого движения по формуле:

5 £ ер = 1 + (Ртах - 1 ) * Р, (4)

где в - рандомный коэффициент на отрезке [0, 1].

Через каждые 200 итераций утах уменьшается на 1. Функция схожести объектов определяется по формуле:

/(Oj) = max

П — V (Л

U< Ст2 LojEL^ 1+ V—1 )

(5)

vmax -

где L - это список грузов, принадлежащих муравью, с возможностью добавить новый элемент или удалить из него существующий, а - это размер L, d(o¿.oj) -расстояние по Хеммингу между объектами, v - скорость муравья, vmax - максимально допустимая скорость.

Функция вычисления вероятности подбора:

Рр = 1 — S igmo i d (f (о ¿) ) . (6)

Вероятность сброса объекта вычисляется по формуле:

Рр = Sigmo id (f (o ¿) ) , (7)

где f (oi) определяется по формуле (5), а функция Sigmoid определяется как:

S igmo i d 00 = (8)

Всякий раз, когда муравей находится в занятой ячейке, он пытается подобрать предмет и вставить его в свой список грузов в соответствии с формулой вставки. Аналогично, если муравей находится в пустой ячейке, он выполняет поиск в своем списке грузов и пробует сбросить один из своих грузов в соответствии с формулой удаления. Для повышения точности, на каждой итерации каждый муравей пытается объединить свои грузы с грузами в списках других муравьев. Для этого каждый муравей проверяет все свои грузы, используя функцию вероятности вставки, с целью вставить свои грузы в список другого муравья. Таким образом, неверно сгруппированные данные могут быть возвращены обратно в их правильные кластеры и ошибка кластеризации уменьшится. Это очень важный процесс, который предотвращает попадание муравьев в локальный оптимум.

Алгоритм можно представить в следующем виде:

1. Инициализировать число кластеров и сгенерировать соответствующее число муравьев;

2. Распределить муравьев и объекты кластеризации рандомно на сетке;

3. Для каждого муравья:

3. 1 сгенерировать рандомный шаг по формуле и переместить муравья на заданный шаг;

3.2 если в новом положении муравья обнаружен груз (объект), вычислить вероятность подбора согласно формуле (6). Если полученная вероятность больше случайно сгенерированной вероятности, то добавить объект в лист грузов муравья;

3.3 если в новом положении муравья груза не оказалось, то для всех грузов в списке муравья вычислить вероятность сброса груза согласно формуле (7). Если полученная вероятность больше случайно сгенерированной вероятности, то удалить объект из листа грузов муравья;

4. Обновить грузы в списках муравьев. Для этого для каждого груза в списке каждого муравья вычислить вероятность вставки в список каждого муравья, отличного от текущего. Если вероятность вставки, вычисленная по формуле (6), превышает рандомно сгенерированную вероятность, вставить объект в список выбранного муравья и удалить его из списка текущего;

5. Пока не достигнуто максимальное число итераций, повторять шаги 3 и 4.

Графически алгоритм представлен на рис. 2.

Начало

/ Число / кластеров k

Распределить муравьев и объекты по сетке

С

Подобрать груз с 7 вычисленной вероятностью

Сбросить грузы с 8 вычисленной вероятностью

Рис. 2. Комбинированный муравьиный алгоритм кластеризации

В результате работы алгоритма на выходе получаем списки грузов каждого муравья. Каждый груз является объектом набора данных, а каждый муравей - отдельным кластером. Данный алгоритм повышает точность кластеризации за счет обмена муравьев объектами из списка грузов. Таким образом, объект, затерявшийся на плоскости и не встретивший муравья, к кластеру которого он принадлежит, имеет все шансы попасть в правильный кластер.

3. Результаты экспериментальных исследований. Для каждого из алгоритмов проводились тесты на выборках данных, находящихся в свободном доступе. Были выбраны следующие (самые популярные) наборы: «Ирисы», «Соевые бобы», «Дрожжи». Это реальные данные, представляющие собой статистику, собранную в разные годы.

Эксперимент заключался в следующем: для каждого из предложенных алгоритмов был выполнен запуск соответствующей программы на каждом из трех тестовых наборов данных, собраны результаты работы программы. Затем был запущен программный код алгоритма ^теаш и также собраны результаты. После этого собранные данные были оценены и проанализированы, были сделаны выводы об эффективности и точности разработанных алгоритмов.

Результаты по параметрам среднеквадратического отклонения, точности, F-меры и времени представленные в табл. 1-6 для трех наборов данных: «Ирисы», «Соевые бобы» и «Дрожжи».

Таблица 1

Результаты выполнения эксперимента для набора данных «Ирисы» и комбинированного алгоритма