Научная статья на тему 'Совместное использование нейросетевых технологий и деревьев решений для анализа информации, содержащейся в приложениях баз данных'

Совместное использование нейросетевых технологий и деревьев решений для анализа информации, содержащейся в приложениях баз данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
168
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Евдокимов И. А., Солодовников В. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Совместное использование нейросетевых технологий и деревьев решений для анализа информации, содержащейся в приложениях баз данных»

Совместное использование нейросетевых технологий и деревьев решений для анализа информации, содержащейся в приложениях баз данных1

Евдокимов И. А., Солодовников В.И.

Учреждение Российской академии наук Центр информационных технологий в

проектировании (ЦИТП) РАН

Введение

Стремительное развитие хранилищ данных и рост объемов хранимой информации в самых различных областях человеческой деятельности предъявляет новые требования к системам обработки информации, в частности, все большую актуальность приобретают системы, способные не просто складировать данные, но и позволяющие осуществлять их обработку, находить закономерности, производить прогнозирование и выдавать результат в виде доступном человеку. Внедрение средств автоматизации в системы анализа данных способны сократить сроки, повысить качество и эффективность извлечения информации и принимаемых решений.

Основные задачи и методы обработки данных

Методы обработки данных могут быть разделены на три категории. К первой относятся методы использующие средства формирования простых запросов и отчетов, позволяющие осуществлять выборку тех данных, которые удовлетворяют некоторым, заранее определенным условиям, т.е. помогают в отыскании фактов, которые произошли в прошлом и были зафиксированы. Вторая включает в себя средства OLAP (On-Line Analyzing Processing - Системы оперативной аналитической обработки) позволяющие осуществить комплексный взгляд на собранную в хранилище данных информацию, ее обобщение, получение итогов и сравнений путем экстраполяции, агрегации, построения сводных отчетов и гиперкубического представления. Более глубокий анализ данных осуществляется методами Data Mining или, как их еще называют, методами «интеллектуального» анализа данных. Эта технология ориентирована на обнаружение в данных, предварительно неизвестных, практически полезных и доступных интерпретации знаний. Это обусловлено тем фактом, что «сырые» данные хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять тенденции, логические правила и закономерности, строить стратегию развития. Основными задачами, для решения которых используются методы Data Mining, являются:

• Ассоциация - поиск связанных друг с другом событий.

• Последовательность - поиск цепочек связанных во времени событий.

• Классификация - выявление признаков, наборов правил, характеризующих группу, путем анализа уже классифицированных объектов.

1 Работа выполняется при поддержке гранта Президента РФ № МК-3553.2009.9.

- 13 -

• Кластеризация - выделение однородных групп данных.

• Прогнозирование - попытка найти шаблоны, адекватно отражающие динамику поведения системы.

• Аномалии - выявление аномальных значений.

• Визуализация - графическое представление данных или результатов работы системы, что способно помочь улучшить понимание структуры данных, упростить процесс восприятия и интерпретации нового знания человеком.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, теории распознавания образов, методов искусственного интеллекта, теории баз данных и др. Этим объясняется большое количество алгоритмов и методов, реализованных в различных

u /--v u u /* u

действующих системах. Однако, в каждой системе имеется какой-либо ключевой компонент. Поэтому представляет интерес использования комплексного подхода при обработке информации из хранилищ данных.

Нейросетевой подход

Особенностью алгоритмов и методов, применимых при «интеллектуальном» анализе данных, является отсутствие ограничительных рамок априорных предположений о структуре выборки и виде распределений значений анализируемых показателей, чему наилучшим образом соответствует использование подхода, основанного на нейросетевых технологиях обработки данных или нейросетевой Data Mining. Это обусловлено способностью нейронных сетей к моделированию нелинейных процессов, работе с зашумленными данными, адаптивностью (обучение и самообучение), способностью обобщать и извлекать существенные особенности из поступающей информации. Однако, существует и ряд сложностей использования данного подхода. Например, в случае использования нейросетей класса многослойный персептрон возможно возникновение проблем с интерпретацией полученного результата и его предпосылок. Для извлечения правил из уже обученных нейронных сетей применим алгоритм NeuroRule, осуществляющий прореживание сети и выявление наиболее значимых признаков, или TREPAN для извлечения деревьев решений с использованием нейронных сетей [2].

Другой сложностью является проблема выбора оптимальной топологии сети, значений параметров и структурных особенностей, которые бы наилучшим образом удовлетворяли решаемой задаче на имеющихся исходных данных. В связи с этим, возникает необходимость использования методов теории принятия решений, которые представляют собой набор понятий и систематических методов, позволяющих всесторонне анализировать проблемы принятия решений, в частности, для автоматизации процесса построения нейросетевых структур в зависимости от требований предъявляемых пользователем и имеющихся исходных данных.

Деревья решений

Логические правила предоставляют возможность прогнозировать и связывать различные параметры изучаемого явления в единое целое, объясняют связи, которые нередко бывают далеко не очевидны. В задачах анализа многомерных данных предложено достаточно много подходов к поиску логических закономерностей, однако, обычно применяются методы, которые условно можно назвать методами здравого смысла, основой которых является использование деревьев решений. Они

позволяют осуществлять решение целого класса задач классификации и распознавания в виде многошагового процесса принятия решений и используют особенности древовидных классификаторов, связанных с учетом локальных свойств классифицируемых объектов на каждом уровне и в каждом узле дерева, что делает возможным реализовать как прямую, так и обратную цепочку рассуждений.

Достоинством деревьев решений является простота и наглядность описания процесса поиска решения за счет представления правил в виде продукций «Если (условие 1) л (условие 2) л ... л (условие N) то (Значение вершины вывода)». Построение деревьев решений обычно осуществляется:

• на основе экспертных оценок;

• с использованием алгоритмов обработки примеров (CLS, ID3 (Interactive Dichotomizer), С4.5, CART (classification and regression trees) и др. );

• с помощью генетических алгоритмов и эволюционного программирования.

В тоже время деревья решения относятся к методам теории принятия решений, где оперируют распределениями условных вероятностей различных состояний, исходов, последствий, при этом лицо, принимающее решение (ЛПР), должно руководствоваться принципом максимизации ожидаемой полезности при выборе той или иной альтернативы. Данное условие требует от ЛПР информации, которая может быть ему неизвестна или недоступна в силу сложности и ресурсоемкости нахождения значений необходимых параметров применительно к построению нейросетевых структур обработки данных, т.е. в таком виде данный подход хоть и применим, но способен слишком сильно усложнить задачу. Данное обстоятельство потребовало модификации деревьев решения [4,6], способных использовать логику предикатов первого порядка и обеспечивающих необходимую гибкость при принятии решений и позволяющих:

• производить вычисления, как в узлах дерева, так и на его ребрах и на основе данных вычислений принимать решение,

• использовать операции разбиения для выделения фрагментов из общего дерева для подробного рассмотрения отдельных подзадач,

• в случае необходимости осуществлять уточнение полученного решения с помощью дальнейшего раскрытия вершин вывода.

• создавать многоуровневую модель принятия решений, путем подстановки большинства значений по умолчанию, в зависимости от результатов выполнения вспомогательных запросов к базе данных, и минимального уточнения полученных решений.

Таким образом, модифицированные деревьев решений, наряду с возможностью использования для поиска логических закономерностей, позволяют решать задачи выбора архитектуры и вычисления параметров нейросетевых структур в зависимости от решаемой задачи и имеющихся исходных данных. В наиболее общем виде схема применения модифицированных деревьев решения в качестве инструментария СППР и САПР нейросетевых структур представлена на рисунке 1.

Рис. 1. Общая схема применения модифицированных деревьев решения в качестве инструментария СППР и САПР нейросетевых структур, где Р1,Р2.. .Рп-наборы параметров, соответствующих нейросетей.

Основным достоинством данного подхода является простота и наглядность описания процесса принятия решений, который может быть представлен в виде последовательности ответов на вопросы, при этом, формируется некоторая естественная цепочка рассуждений. Данная структура деревьев ориентирована на модели нейронных сетей с частью характеристик, известных заранее, некоторые значения параметров могут формироваться автоматически, осуществляя запросы к базе данных, другие вводятся в процессе взаимодействия с пользователем, причем это взаимодействие зависит от вида сети.

Построение деревьев решений для выбора нейронных сетей

Построение деревьев решения для выбора архитектуры и вычисления параметров нейросетевых структур осуществляется на основе экспертных оценок и правил, характеризующих объекты предметной области. Это влечет за собой необходимость проведения анализа различных нейросетевых парадигм, направленного на формулировку правил построения в некотором смысле оптимальных сетей, формирование критериев их применимости для решения конкретных задач, рассмотрение вопросов предобработки, кодирования и проверки на непротиворечивость исходных данных. В качестве примера приведем фрагмент дерева для оценки числа скрытых элементов многослойного персептрона (рис.2), для построения которого использовались:

• теорема Хехт-Нильсена о представимости функции многих переменных с помощью двухслойной нейронной сети [2];

• принцип совместной оптимизации эмпирической ошибки и сложности модели шт{описание ошибки + описание модели};

• рекомендации, которые приводит Хайкин [1], используя результаты из работ Баума и Хесслера, относительно размеров набора учебных данных с учетом количества весовых коэффициентов и доли ошибок, допустимых в ходе тестирования.

Рис. 2. Оценка количества скрытых элементов многослойного персептрона, где i, h, o - число нейронов входного, скрытого и выходного слоев, w - количество весов, p -

количество примеров обучающей выборки Стоит отметить, что уже построенные деревья решений могут быть изменены или дополнены, тем самым, определяя необходимую гибкость в использовании уже имеющихся нейросетевых структур, а также, обеспечивая возможность добавления новых. Причем такой же порядок описания может быть использован и при формировании правил для других технологий Data Mining.

Заключение

Предлагаемый подход позволяет производить комплексный анализ информации приложений БД, решать широкий круг задач классификации, кластеризации, получать проектные и прогностические решения для различных предметных областей. Совместное использование нейросетевых технологий с методами логического вывода способно улучшить понимание структуры изучаемого явления за счет предоставления результатов в виде иерархической, последовательной структуры правил. В тоже время, деревья решения могут использоваться как самостоятельное средство анализа многомерных данных и поиска в них логических закономерностей. С другой стороны, предложенная модель модифицированных деревьев решений, применима в качестве инструментария СППР при выборе архитектуры и вычислении параметров нейросетевых структур в зависимости от решаемой задачи и имеющихся исходных данных.

Список литературы

1. Haykin S., Neural Networks: A Comprehensive Foundation, MacMillan College Publishing Co., New York, 1994.

2. Ежов А., Шумский С., Нейрокомпьютинг и его применение в экономике и бизнесе,1998.

3. Рассел С., Норвиг П. Искусственный интеллект: современный подход - М.: Издательский дом «Вильямс», 2006.

4. Солодовников В.И., Солодовников И.В. Использование деревьев решений для проектирования нейронных сетей -// Информационные технологии и вычислительные системы. № 1, М.: 2005г.

5. Вербицкий А.А., Гридин В.Н., Солодовников В.И., Солодовников И.В. Использование нейронных сетей в задаче тестирования // Информационные технологии. №9, М.: 2007.

6. Солодовников И.В., Солодовников В.И. Использование нейросетевых

технологий для интерпретации и защиты информации. // Информационные

технологии и математическое моделирование систем 2006-2008. Материалы международной научно-технической конференции.- М.: «Радиотехника», 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.