Научная статья на тему 'ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕР- АНАЛИЗА ПО СХЕМЕ МАШИННОГО ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ'

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕР- АНАЛИЗА ПО СХЕМЕ МАШИННОГО ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
50
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ / МАШИННОЕ ОБУЧЕНИЕ / КЛАСТЕР-АНАЛИЗ / МЕТОД K-СРЕДНИХ / ЦЕНТРОИД

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Магжанова А. Т.

Статья посвящена исследованию существующих методов кластер-анализа по схеме машинного обучения без учителя, выявлению их достоинств и недостатков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTEGRATION OF INFORMATION SOURCES WITH THE USE OF CLUSTER ANALYSIS ACCORDING TO THE MACHINE LEARNING SCHEME WITHOUT A TEACHER

The article is devoted to the investigation of existing methods of cluster analysis according to the scheme of machine learning without a teacher, revealing their advantages and disadvantages.

Текст научной работы на тему «ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕР- АНАЛИЗА ПО СХЕМЕ МАШИННОГО ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ»

4. Дунаев, В. Самоучитель JavaScript, 2-е изд. - Питер, 2005, - 395 с.

5. Колисниченко Д.Н. Drupal 7. Руководство пользователя.- «Диалектика», 2011, - 256 с.

6. Б.Мелансон, Д.Нордин, Ж.Луиси. Профессиональная разработка сайтов на Drupal 7: Пер. с англ./ Рузмайкина И. - Питер, 2013, - 688 с.

УДК 004.852

Магжанова А. Т. студент магистратуры факультет «Автоматика и вычислительная техника» Национальный исследовательский университет «МЭИ»

Россия, г. Москва ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕР- АНАЛИЗА ПО СХЕМЕ МАШИННОГО ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ

Аннотация:

Статья посвящена исследованию существующих методов кластер-анализа по схеме машинного обучения без учителя, выявлению их достоинств и недостатков.

Ключевые слова: машинное обучение, обучение без учителя, кластер-анализ, метод k-средних, центроид.

Magzhanova А. Т., graduate student Faculty of Automation and Computer Engineering Moscow Power Engineering Institute

Russia, Moscow

INTEGRATION OF INFORMATION SOURCES WITH THE USE OF CLUSTER ANALYSIS ACCORDING TO THE MACHINE LEARNING

SCHEME WITHOUT A TEACHER

Annotation:

The article is devoted to the investigation of existing methods of cluster analysis according to the scheme of machine learning without a teacher, revealing their advantages and disadvantages.

Keywords: machine learning, training without teacher, cluster analysis, k-means method, centroid.

Введение

В последнее время наблюдается рост интереса к новому направлению в обработке информации - интеллектуальному анализу данных. В анализируемом направлении рассматривается одна из задач интеллектуального анализа данных - задача кластерного анализа, которая также известна как задача автоматической группировки объектов или классификации без учителя.

Машинное обучение

Машинное обучение — это обширный подраздел искусственного интеллекта, который изучает методы построения алгоритмов, способных обучаться. Данная дисциплина находится на стыке математической статистики, методов оптимизации и классических математических дисциплин.

В свою очередь, машинное обучение — это не только математическая, но и инженерная дисциплина. Чистая теория, как правило, не приводит сразу к методам и алгоритмам, применимым на практике. Чтобы заставить их хорошо работать, приходится изобретать дополнительные эвристики, компенсирующие несоответствие сделанных в теории предположений условиям реальных задач. Практически ни одно исследование в машинном обучении не обходится без эксперимента на модельных или реальных данных, подтверждающего практическую работоспособность метода.

Обучение без учителя

Обучение без учителя — это один из разделов машинного обучения, который изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя обычно противопоставляется обучению с учителем, когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.

Кластеризация

Кластеризация — это задача разбиения какой-либо выборки объектов на подмножества, которые называют кластерами, таким образом, чтобы каждый кластер состоял из наиболее схожих между собой объектов, а объекты разных кластеров существенно отличались. Задачу кластеризации можно отнести к широкому классу задач обучения без учителя.

Цели кластеризации:

- Понимание данных путём выявления кластерной структуры.

- Сжатие данных.

- Обнаружение новизны.

В первом случае число кластеров лучше сделать небольшим. Во втором случае наиболее важным считается обеспечить высокую (или фиксированную) степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Метод к - средних

Наиболее распространен среди неиерархических методов алгоритм k-средних, который также называют быстрым кластерным анализом. В

отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для того, чтобы использовать данный метод, необходимо сразу указать число кластеров.

Алгоритм ^средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Общая идея алгоритма состоит в следующем: заданное число k кластеров сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.

Описание алгоритма

1. Первоначальное распределение объектов по кластерам.

Выбирается число ^ и на первом шаге эти точки считаются

центроидами кластеров. Каждому кластеру соответствует один центроид.

Выбор начальных центроидов может осуществляться следующим образом:

- чтобы они находились на максимальном расстоянии друг от друга;

- случайным образом.

В результате каждый объект будет соответствовать определенному кластеру.

2. Итеративный процесс.

На каждом шаге значения центроидов кластеров пересчитываются, как средние значения объектов, входящих в тот или иной кластер. Далее пересчитываются значения расстояний между всеми объектами и всеми кластерами, переопределяется, к какому кластеру относится каждый объект, и процесс повторяется снова до тех пор, пока не выполнено одно из условий:

- значения центроидов кластеров перестают меняться;

- число итераций равно максимальному числу итераций.

Выводы

В результате проведенного исследования были выявлены следующие достоинства и недостатки метода к-средних.

Достоинства алгоритма ^средних:

- простота использования;

- быстрота использования;

- понятность и прозрачность алгоритма.

Недостатки алгоритма ^средних:

- алгоритм слишком чувствителен к первоначальному заданию центроидов кластеров;

- алгоритм может медленно работать на больших базах данных.

Использованные источники: 1. Информационно-аналитический ресурс, посвященный машинному обучению [Электронный ресурс] : http://machinelearning.ru (дата обращения:

07.05.2017)

2. Википедия: свободная электронная энциклопедия: на русском языке [Электронный ресурс] : http://ru.wikipedia.org (дата обращения: 09.05.2017)

3. В.Б. Бериков, Г.С. Лбов . Современные тенденции в кластерном анализе: дис. Институт математики им. С.Л. Соболева СО РАН , ^бирь, 2009. http://www.ict.edu.ru/ft/005638/62315e1-st02.pdf

УДК 004.658.6

Магжанова А.Т. студент магистратуры факультет «Автоматика и вычислительная техника» Национальный исследовательский университет «МЭИ»

Россия, г. Москва РЕПЛИКАЦИЯ ДАННЫХ В POSTGRESQL Аннотация:

Статья посвящена исследованию различных видов репликации в СУБД PostgreSQL, выявлению их основных особенностей, а также достоинств и недостатков.

Ключевые слова: база данных, репликация, журнал транзакций, главный сервер, подчиненный сервер.

Magzhanova А. Т., graduate student Faculty of Automation and Computer Engineering Moscow Power Engineering Institute

Russia, Moscow DATA REPLICATION IN POSTGRESQL

Annotation:

The article is devoted to research of different types of replication in DBMS PostgreSQL, revealing their main features, as well as advantages and disadvantages.

Key words: database, replication, transaction log, master server, slave server.

Введение

Репликация является одной из техник масштабирования баз данных. Состоит эта техника в том, что данные с одного сервера базы данных постоянно копируются (реплицируются) на один или несколько других (называемые репликами). Для приложения появляется возможность использовать не один сервер для обработки всех запросов, а несколько. Таким образом появляется возможность распределить нагрузку с одного сервера на несколько.

Варианты репликации

WAL (Write Ahead Log) — журнал транзакции, СУБД пишет туда все

i Надоели баннеры? Вы всегда можете отключить рекламу.