Научная статья на тему 'Современные тенденции развития технологий извлечения знаний'

Современные тенденции развития технологий извлечения знаний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
353
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гладков Л. А., Щеглов С. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Современные тенденции развития технологий извлечения знаний»

нутся ли мыслящие машины всего лишь машинами или мы вынуждены будем считать их членами нашего человеческого общества со всеми правами и обязанностями. Нужны ли вообще мыслящие машины или это - чисто научная, абстрактная цель, которую лучше не воплощать в реальную практику. Большинство этих проблем видится нам в таком отдаленном и фантастическом будущем времени ..., но на все эти вопросы ответы надо искать уже сейчас, уже сегодня, когда только фор, .

Выводы. Необходим переход от термина "искусственный интеллект" к термину "активное отражение". Предметом теории активного отражения являются процессы активного отражения, в том числе мышление и обработка информации в компьютерах. Ее методом является формализованное знаковое моделирование, а

- , , , , , , , -, -нием. Предложен критерий определения степени интеллектуальности систем: если система способна к порождению, генезису знака значит она - интеллектуальна.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Варламов ОХ). Эволюционные базы данных и знаний для адаптивного синтеза интеллектуальных систем. Миварное информационное пространство. - М.: Радио и связь, 2002. - 288 с.

2. www.ovar.narod.ru.

Л.А. Гладков, С.Н. Щеглов

СОВРЕМЕННЫЕ ТЕНДЕНЦИИ РАЗВИТИЯ ТЕХНОЛОГИЙ ИЗВЛЕЧЕНИЯ

ЗНАНИЙ*

Эффективность работы большинства современных информационных систем определяется мощностью и адекватностью баз знаний, которые используются для выработки решений и рекомендаций. До настоящего времени в качестве основного источника знаний рассматривались эксперты предметной области. Отсутствие проверенных источников является одной из главных причин относительно слабого промышленного и коммерческого использования систем, основанных на знаниях. Подобная информация является источником знаний, необходимых для развития науки и производства, создания новых технологий, управления бизнес-процессами и т.п.

Особое внимание в современных интеллектуальных информационных системах уделяется различным областям человеческой деятельности, где накоплено много данных. Но данные сами по себе не имеют практической ценности, поскольку они нуждаются в серьезной обработке. Пользователи прикладных систем сегодня предъявляют серьезные требования к результатам исследования данных, которые не могут быть получены чисто статистической обработкой. Их интересу,

решений [1].

Развитие технологий обработки данных позволило оптимизировать средства доступа и механизмы контроля целостности данных. Был стандартизирован язык обработки 8РЬ, который дал разработчикам настольных приложений универсаль-

* Работа выполнена при поддержке РФФИ (гранты № 07-01-00511, № 06-01-00272) и программ развития научного потенциала высшей школы 2006-2008 гг. (РНП.2.1.2.3193, РНП 2.1.2.2238).

ное средство общения. Информационные системы, ориентированные главным образом на ввод информации, получили название OLTP-системы (On-Line Transaction Processing, оперативная транзакционная обработка данных). Функциональным расширением баз данных (БД) являются объектно-ориентированные, мультимедийные БД, а также многомерные хранилища (Data Warehouses) и витрины данных (Data Marts) [2].

Объектно-ориентированные БД позволяют распространить принципы объектно-ориентированного программирования (ООП) на уровень хранения данных. Появление таких БД обусловлено тем, что стандартные реляционные подходы плохо применимы для работы с данными новых типов. Для решения подобных

- ( ). Состояние объектов в них описывается как значения их атрибутов, а поведение и применимые к ним операции определяются реализацией этих методов. Это позволяет представлять объекты предметной области в естественном семантически значимом виде, что упрощает разработку и модификацию схемы данных [1,2]. Примерами таких приложений являются САПР, CASE- и мультимедиа системы.

Интеллектуализация информационных технологий влечет за собой соответствующие процессы по отношению к компьютерам и программному обеспечению [2]. Интеллектуализация вычислительной техники производится за счет разработки и применения специальных устройств, таких как устройства распознавания речи и , , -пьютеры, параллельные вычислительные устройства и т.д. Повышение интеллектуальности программного обеспечения связано с использованием систем извлече-, , , позволяющих принимать решения в сложных неформализованных условиях. Также широко используются методы нечеткой математики, математические модели на базе искусственных нейронных сетей и оптимизационные алгоритмы на основе методов эволюционного, бионического и квантового поиска [3].

Другим важным направлением интеллектуализации информационных систем является моделирование знаний о предметных областях. Разработка новых моделей представления знаний, семантических сетей, онтологий, систем интеллектуальной верификации знаний позволяют реализовать принципиально новые информационные системы извлечения и обработки знаний для решения сложных плохо .

Интеллектуальные информационные системы, такие как экспертные системы, системы обработки естественного языка и нейронные вычислительные системы увеличивают производительность и облегчают выполнение сложных задач. Они также обеспечивают поддержку, когда информационный поток неполный или «нечеткий» [1-3]. Интеллектуальные системы могут использоваться индивидуально, но во многих случаях они интегрированы между собой и с другими информацион-.

История развития и анализ современных тенденций в области создания сложных технических систем на базе искусственного интеллекта позволяет сделать вывод о том, что наиболее эффективными на сегодняшний день являются системы, построенные на основе гибридизации различных направлений, методов и технологий [4]. Свидетельством того, что речь в данном случае идет не о механическом объединении разнородных структур, является синергетический (нелинейный) эф, . отдельных составляющих (методов, технологий) и повышению эффективности системы в целом [5]. Примерами подобной интеграции могут служить нейро-

, - , , -. . [6].

Так для нечетких множеств основной областью применения являются задачи представления и обработки знаний, они также используются для управления неоп-.

Нейронные сети обладают способностью к самообучению и активно используются для решения таких задач искусственного интеллекта как классификация и . -проксимации функций с нелинейными ландшафтами, их с успехом применяют при решении задач прогнозирования поведения в финансовой, экономической и соци-.

,

также эволюционное (генетическое) программирование и эволюционные стратегии

[7] -

тимизации, возникающих в ходе управления и проектирования сложных интеллек-

,

.

Методы теории нечетких множеств используются как для подбора параметров генетических алгоритмов, так и для выбора коэффициентов определяющих скорость обучения нейронных сетей.

Одной из таких гибридных технологий получившей в последнее время широкое распространение являются нечеткие генетические (адаптивные, эволюцион-) .

, , основываются на символическом представлении. В искусственном интеллекте

- , , объектов процессов и их отношений. Объектами могут быть люди, идеи, понятия, события или утверждения о фактах [8].

, ( ), -, . -цессы при манипулировании символами для генерации советов или рекомендаций при решении задач. Несмотря на то, что решение задач при помощи ИИ не реализуется напрямую алгоритмически, алгоритмы используются для осуществления .

Предметно-ориентированные аналитические системы являются одним из наиболее популярных разновидностей систем, позволяющих извлекать знания [1]. Наиболее широкий их подкласс, получивший основное распространение в области исследования финансовых рынков, носит название систем «технического анализа». В него входят несколько десятков систем, предназначенных для прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля на основе различных эмпирических моделей развития рынка.

, . систем подобного типа является пакет PolyAnalyst. В нем гипотезы о зависимости целевой переменной от других переменных формулируются в виде программ написанных на внутреннем языке программирования [1]. Процесс построения программ похож на то, что используют генетические алгоритмы. При нахождении программы, близко отображающей необходимую зависимость, в нее вносятся небольшие модификации и среди полученных дочерних программ отбирают те, которые повышают точность работы. В результате создается несколько конкурирующих генетических линий. Специальный транслирующий модуль переводит найденные зависимости во внешний

язык, понятный обычному пользователю (формулы, таблицы, графики и пр.). Для повышения доступности программного пакета в нем предусмотрен широкий спектр различных средств визуализации. Также предусмотрена возможность контроля статистической значимости выводимых зависимостей с помощью различных .

Системы на основе генетических алгоритмов. Как уже отмечалось, выше генетические алгоритмы являются эффективным средством для решения различных комбинаторных задач оптимизации, проектирования и принятия решений. Однако их вполне можно использовать и для решения задачи извлечения полезной информации и знаний из баз данных. Известно также, что в настоящее время генетические алгоритмы входят в состав стандартного инструментария методов KDD.

, , некоторому заданному критерию. Каждое возможное решение полностью описывается неким набором атрибутов нечисловой природы. Они представляются в виде

« » ( ). « » ( ), -ставленная последовательностью генов, является закодированным представлением одного варианта решения. Поиск оптимального решения моделируется процессом эволюции популяции индивидов [1,9].

Основными механизмами создания новых решений в процессе эволюции являются операторы кроссинговера и мутации. В результате смены поколений в процессе « » « » .

Основными недостатками генетических алгоритмов является возможность схождения процесса поиска на решении далеком от оптимального, а также вероятность исключения перспективных решений из дальнейшего процесса поиска Это особенно заметно при решении задач высокой размерности со сложными внутренними связями. Тем не

, ,

. -темы является пакет GeneHunter фирмы Ward Systems Group [1,3].

Еще одним перспективным направлением развития гибридных интеллекту-

« ». -гласно определению [10] нечеткий генетический алгоритм - это генетический ал, -ментов нечеткой логики. Такими компонентами можно считать нечеткие операторы и нечеткие правила для создания генетических операторов с различными свойствами; системы нечеткого логического контроля параметров ГА в соответствии ; -

.

случае для кодирования, подбора оптимальных параметров генетических алгоритмов, значений вероятности генетических операторов, выбора функции пригодности и критерия останова, создания нечетких генетических операторов. Рассмотрим эти возможности более подробно.

Одним из ключевых моментов построения любого генетического алгоритма, .

числового значения в некоторую последовательность символов конечного алфавита, состоящего обычно из небольшого числа элементов. Наиболее известный пример такого кодирования - это двоичное кодирование и представление решений в виде последовательности нулей и единиц.

Что касается нечеткого кодирования, то здесь можно провести аналогию между процессами кодирования и фаззификации, т.е. преобразования исходных числовых величин в распределения, соответствующие термам лингвистической пе-

ременной. При этом каждое числовое значение описывается одним или несколь-

,

нечеткому множеству [5].

Термины конечного алфавита нечетких множеств могут включать такие по-« », « », « ( )», «

(меньше)», «примерно ноль», «мапая отрицательная (положительная)» и др. Использование таких алфавитов при кодировании решений в генетических алгоритмах дает возможность построить неоднородное разделение пространства поиска. ,

.

Степень детализации и характер распределения решений в пространстве поиска может определяться на основе начальных знаний о решаемой задаче. Такое кодирование позволяет сосредоточить основные усилия на поиске в наиболее пер. (

, ), -ляют последовательности относительно низкой степени детализации.

, , -ния. Во-первых, кодовые последовательности могут быть неоднородными и ориентироваться на отдельные многообещающие области поиска, что позволит сократить область поиска и соответственно вычислительные затраты. Кроме того, в закодированную последовательность может быть неявным образом включена функция пригодности [11].

- , -бое кодирование оптимизируемых структур. Слабое кодирование, в отличие от обычного (сильного) кодирования, не подразумевает жесткое соответствие типа «один-к-одному» между генотипом и фенотипом в кодируемой структуре.

Основная идея слабого кодирования состоит в использовании отношений ти-« - - » - . -даря этому мы получаем единственный генотип, которому соответствует нечеткое . -тических переменных при сохранении двоичного кодирования.

Также при решении различных практических задач оптимизации используется кодирование на основе вещественных чисел [12]. Кодирование на основе вещественных чисел наиболее эффективно решении задач параметрической оптимизации с переменными заданными в непрерывных областях значений. В таком кодировании хромосома обычно представляет собой вектор чисел с плавающей запятой, причем размер чисел соответствует длине вектора, который является решением рассматриваемой проблемы [13]. Генетические алгоритмы, основанные на вещественном представлении чисел, называют генетическими алгоритмами с вещественным кодированием (real-coded GAs - RCGA).

Одним из наиболее перспектвных подходов к организации процесса поиска оптимальных решений является организация на основе мультиагентных архитектур. Под «агентом» может пониматься все, что способно воспринимать свою среду обитания с помощью датчиков (сенсоров) и воздействовать на нее с помощью исполнительных механизмов [8]. Внутреннее описание агента должно включать таб,

помощью программы агента. При этом различают понятия функции и программы агента. Функция агента представляет собой абстрактное математическое описание, а программа агента - это конкретная реализация, действующая в рамках архитектуры агента [5,8].

Понятие агента применительно к различным прикладным системам может

- . , -риваться как искусственный организм в популяции себе подобных, стремящийся обучаться и адаптироваться к внешней среде, для того чтобы выжить в ней.

Тогда многоагентная система может рассматриваться как популяция простых и независимых агентов, каждый агент которой самостоятельно реализуется в локальной среде и взаимодействует с другими агентами. Связи между различными агентами являются горизонтальными, а глобальное поведение агентов определяется на основе расплывчатых правил [8].

При этом можно предложить использовать формальный механизм нечетких множеств для создания и вывода нечетких правил. С этой точки зрения такой механизм может восприниматься как функция агента, а программа, реализующая эту функцию применительно к решению каждой конкретной оптимизационной задачи, будет представлять собой нечеткий генетический алгоритм, настраиваемый в соответствии с текущими результатами.

В целом структура каждого агента может быть условно обозначена следующей формулой:

Агент = Архитектура + Программа.

Применение принципов построения многоагентных систем к задаче извлечения знаний позволит организовать распараллеливание основных технологических процессов при поиске и выборе решений.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Городецкий В.К, Самойлов В.В., Малое АХ). Современное состояние технологий извлечения знаний из баз и хранилищ данных // Новости искусственного интеллекта, №3, 2002. - С. 3-13.

2. Башм аков AM., Башмаков КА. Интеллектуальные инфо рмационные технологии. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2005.

3. . ., . . . - .: -

, 2000.

4. Ярушкина КГ. Основы теории нечетких и гибридных систем. Учебное пособие. - М.:

, 2004.

5. . . : ,

психология, информатика. - М.: Эдиториал УРСС, 2002.

6. Bezdek J.C. On the relationship between neural networks, pattern recognition and intelligence. Int. J. Approximate Reasoning, 6, 1992. - pp. 85-107.

7. Емельянов В.В., Курейчик В.В., Курейчик В.М. Теория и практика эволюционного моделирования. - М.: Физматлит, 2003.

8. Рассел С., Нореиг П. Искусственный интеллект: современный подход. - М.: Издательский дом «Вильямс», 2006.

9. ГладкоеЛ.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы. - М.: Физматлит, 2006.

10. Galantucci L.M., Percoco G., Spina R. Assembly and Disassembly Planning by using Fuzzy Logic & Genetic Algorithms // International Journal of Advanced Robotic Systems, Vol. 1,

2, 2004. - pp. 67-74.

11. . . -

// . . -пуск второй. - М.: Физматлит, 2007. - С. 31-47.

12. Herrera F., Lozano M. Adaptation of genetic algorithm parameters based on fuzzy logic controllers. In: F. Herrera, J. L. Verdegay (eds.) Genetic Algorithms and Soft Computing, Physica-Verlag, Heidelberg, 1996. - pp. 95-124.

13. Lozano M., Herrera F., Krasnogor N., Molina D. Real-Coded Memetic Algorithms with Crossover Hill-Climbing. Evolutionary Computation 12(3), 2004. - pp. 273-302.

1QQ

i Надоели баннеры? Вы всегда можете отключить рекламу.