Научная статья на тему 'PMML - ИНСТРУМЕНТ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ'

PMML - ИНСТРУМЕНТ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
30
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ОБРАБОТКА ДАННЫХ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ / PMML / АССОЦИАТИВНЫЕ ПРАВИЛА / ARTIFICIAL INTELLIGENCE / DATA PROCESSING / DATA MINING / ASSOCIATION RULES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пальмов С.В., Артюшкина Е.С.

В настоящее время разработано большее количество инструментов для анализа данных. Эффективность применения варьируется в зависимости от предметной области, что порождает проблему выбора наилучшего из них. В статье кратко рассмотрен PMML - язык для представления и обмена моделями на основе методов искусственного интеллекта между приложениями. Дана его положительная характеристика как инструмента разработки качественных решений в области анализа и обработки данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PMML- INTELLIGENT DATA PROCESSING TOOL

A large number of data analysis tools have been developed. The effectiveness of the application varies depending on the subject area, which raises the problem of choosing the best of them. The article briefly reviews PMML, a language for presenting and sharing models based on artificial intelligence methods between applications. Its positive characteristic is given as a tool for developing high-quality solutions in the field of data analysis and processing.

Текст научной работы на тему «PMML - ИНСТРУМЕНТ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ»

УДК 004.8

Пальмов С.В., к.т.н., доцент

доцент

кафедра информационных систем и технологий ФГБОУ ВО «Поволжский государственный университет

телекоммуникаций и информатики»

доцент

кафедра информационных и развивающих образовательных систем и технологий ФГБОУ ВО «Самарский государственный технический университет» Артюшкина Е. С.

студент

2 курс, факультет «Отдел магистратуры» ФГБОУ ВО «Поволжский государственный университет

телекоммуникаций и информатики»

Россия, г. Самара

PMML - ИНСТРУМЕНТ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ

ДАННЫХ

Аннотация: В настоящее время разработано большее количество инструментов для анализа данных. Эффективность применения варьируется в зависимости от предметной области, что порождает проблему выбора наилучшего из них. В статье кратко рассмотрен PMML -язык для представления и обмена моделями на основе методов искусственного интеллекта между приложениями. Дана его положительная характеристика как инструмента разработки качественных решений в области анализа и обработки данных.

Ключевые слова: искусственный интеллект, обработка данных, интеллектуальный анализ, PMML, ассоциативные правила

Palmov S. V., Candidate of Science Engineering, associate professor

associate professor Department of Information Systems and Technologies Povolzhskiy State University of Telecommunications and Informatics

associate professor Department of Information and Developing Educational Systems and Technologies Samara State Technical University Artyushkina E.S.

student

2ndyear, faculty "Magistracy department" Povolzhskiy State University of Telecommunications and Informatics

Russia, Samara

PMML- INTELLIGENT DATA PROCESSING TOOL

Annotation: A large number of data analysis tools have been developed. The effectiveness of the application varies depending on the subject area, which raises the problem of choosing the best of them. The article briefly reviews PMML, a language for presenting and sharing models based on artificial intelligence methods between applications. Its positive characteristic is given as a tool for developing high-quality solutions in the field of data analysis and processing.

Key words: artificial intelligence, data processing, data mining, PMML, association rules

Современный этап развития подходов к обработке статистических данных характеризуется большим разнообразием используемых методов [3]. Главенствующее положение среди последних занимают инструменты, основанные на искусственном интеллекте. Отличительной особенностью их применения является факт отсутствия заметной корреляции между предметной областью и успешностью ее анализ \ обработки посредством конкретного метода. Другим словами, однозначно утверждать, что для предметной области X предпочтительно использовать метод Y, нельзя. Безусловно, к настоящему времени накоплен достаточно большой объём практических знаний в упомянутом выше направлении, поэтому в Сети и научной литературе можно найти рекомендации, упрощающие выбор, однако полностью полагаться на них будет контрпродуктивным. Следовательно, существует задача определения наиболее подходящей пары «предметная область - метод». Одним из условий ее решение является знание возможностей существующего инструментария. Исходя из сказанного, данная работа, посвященная обзору особенностей языка PMML, является актуальной.

PMML - язык разметки для прогнозного моделирования (Predictive Model Markup Language) представляет собой XML-подобный язык, реализующий возможность определения и обмена моделям, включая созданными посредством искусственного интеллекта, между приложениями. Последние, естественно, должны поддерживать упомянутый функционал [6].

В PMML отсутствует привязка к определенному производителю, что заметно упрощает работу с моделями: их создание может быть выполнено в приложении П1, а использоваться они будут в П2... Пп. Структура модели представляется при помощи XML-схемы (описание типа документа, обычно выражаемое в терминах ограничений на структуру и содержимое документов этого типа, помимо базовых синтаксических ограничений, налагаемых самим XML).

Последняя версия (PMML 4.4) [2], выпущенная в 2019 году, позволяет создавать такие модели, как:

• Детектирование аномалий.

• Ассоциативные правила.

• Байесовские классификатор и сети.

• Кластеризационные.

• Нейросетевые.

• Деревья решений и т.д.

Выделяют следующие основные элементы моделей: Таблица. Элементы модели PMML

Название элемента Краткое описание

Заголовок Общая информация о документе (дата, название, версия, автор и т.д.)

Словарь данных Задает определения всех полей в модели

Преобразование данных Задает преобразование используемых данных (например, преобразование данных непрерывного типа к дискретному)

Модель Содержит определенную модель (см. выше). PMML-документ может содержать более одной модели. Например, ансамбль деревьев решений с последующей взвешенной группировкой результатов

Схема обработки Перечень всех полей модели с указанием конкретных сведений о каждом из них

Цели Постобработка целевого показателя

Вывод Настройка требований к целевому показателю

Рассмотрим, как будет выглядеть в общих чертах модель «Ассоциативные правила» [5]. Она содержит следующую базовую информацию:

1) Атрибуты модели.

2) Элементы.

3) Наборы элементов.

4) Ассоциативные правила.

Количество наборов элементов и ассоциативных правил не лимитировано; первые должны предшествовать вторым.

Для атрибутов доступны следующие характеристики:

• Количество транзакций во входных данных.

• Количество элементов в самой большой транзакции.

• Среднее количество элементов в транзакции.

• Значение минимальной поддержки для правил.

• Предельная сложность правил.

• Количество наборов элементов в модели.

• Количество правил в модели.

Элементы описываются характеристиками, перечисленными далее:

• Уникальный идентификатор элемента.

• Значение элемента.

• Преобразованное значение элемента.

• Вес элемента.

Кроме этого, присутствуют дополнительные необязательные характеристики «Поле» и «Категория», которые позволяют однозначно связать элементы с данными. Первые два элемента в последнем перечне должны быть уникальными. В случае, если второй элемент таковым не

является, необходимо уточнить его посредством приведенных дополнительных характеристик; значения трех характеристик не могут быть одинаковыми. «Преобразованное значение элемента» допускает наличие неуникальных значений.

Наборы элементов описываются следующими характеристиками:

• Уникальный идентификатор набора элемента.

• Поддержка набора элементов (относительная частота встречаемости набора элементов среди всех транзакций).

• Количество элементов в наборе.

• Ссылка на тип элемента.

Далее задаются ассоциативные правила в формате «условие -следствие». Характеристики представлены ниже:

• Идентификатор набора элементов, который является условием правила. Обозначим его как У.

• Идентификатор набора элементов, который является следствием правила. Обозначим его как С.

• Поддержка правила (относительная частота транзакций, содержащих У и С).

• Достоверность правила (отношение поддержки правила к поддержке набора элементов У).

• Лифт. Мера «интереса» правила. Значение, превышающее единицу, указывает на то, что в транзакциях с УС встречается чаще, чем без У.

• Балансировка [1]. Еще одна мера «интереса». Ассоциативное правило с высокой частотой и низким лифтом может представлять больший интерес, чем правило с более низкой частотой, но с более высоким значением лифта. Первое может оказаться полезнее, ибо применимо к большему числу случаев. Балансировка рассчитывается как разность между относительной частотой встречаемости (поддержки) правила «Если У то С» и произведением поддержек наборов У и С.

• Сходство (affinity, коэффициент Жаккара) [4]. Рассчитывается как отношение поддержки набора, содержащего элементы У и С, к сумме поддержек наборов, содержащих У или С, но не оба элемента сразу. Позволяет оценить сходство между элементами двух наборов.

• Уникальный идентификатор ассоциативного правила.

Как видно из представленного описания, модель указанного типа обладает достаточно большим числом характеристик, что делает возможным ее эффективное практическое применение. Следовательно, PMML представляет собой не просто «удобный формат» обмена моделями между приложениями, но и инструмент, позволяющий обеспечить разработку качественных решений в области анализа и обработки данных.

Использованные источники:

1. Commonly Used Interest Measures for Association Rules [Электронный ресурс]. URL: https://michael.hahsler.net/research/recommender/associationrules.html (дата обращения: 12.02.2020).

2. PMML Version 4.4 [Электронный ресурс]. URL: http://dmg.org/pmml/pmml-v4-4.html (дата обращения: 12.02.2020).

3. Sarmento Rui, Costa Vera. An Overview of Statistical Data Analysis [Электронный ресурс]. URL:https://www.researchgate.net/publication/335290671_An_Overview_of_Stat istical_Data_Analysis (дата обращения: 12.02.2020).

4. Коэффициент Жаккара [Электронный ресурс]. URL: https://dic.academic.ru/dic.nsf/ruwiki/1812572 (дата обращения: 12.02.2020).

5. Пальмов С.В. Обзор алгоритмов поиска ассоциативных правил // Наука и бизнес: пути развития. - 2016. - №10(64). - С.77-80.

6. Язык разметки прогнозного моделирования [Электронный ресурс]. URL:

https://ru.wikipedia.org/wiki/Язык_разметки_прогнозного_моделирования (дата обращения: 12.02.2020).

i Надоели баннеры? Вы всегда можете отключить рекламу.