Научная статья на тему 'Конструирование диагностических решений в слабоструктурированных проблемных областях'

Конструирование диагностических решений в слабоструктурированных проблемных областях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
154
51
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Берестнева О. Г., Муратова Е. А., Уразаев A. M., Ерёмина Н. Л.

Предложена технология конструирования диагностических решений в слабоструктурированных проблемных областях и последующее построение метаструктуры диагностических решений, что позволяет построить достаточно адекватные модели проблемной области. Рассмотренные методы могут дополняться или заменяться другими методами поиска закономерностей, однако это потребует пересмотра процедуры построения метаструктуры получаемых иным способом диагностических решений. Авторам удалось выявить устойчивые закономерности в данных и тем самым расширить базу знаний при решении двух прикладных задач из области социальной психологии

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The technology of diagnostic solutions constructing in weakly structural problem fields is proposed. This technology includes synthesis of derived diagnostic solutions metastructure. The construction of the diagnostic solutions is realized the method of local geometry, limited sorting, of design trees. The selection is depend on availability and simplicity of using systems realizing these methods. The synthesis of diagnostic solutions metastructure is greatly topically for knowledge base construction demanding introducing concepts, metanotions and semantic ratios on the base of knowledge fragment set about problem field. Application of the technology of diagnostic solutions constructing allows to construct adequate of problem fields.

Текст научной работы на тему «Конструирование диагностических решений в слабоструктурированных проблемных областях»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 681.2.085

О.Г. Берестнева*, Е.А. Муратова*, А.М. Уразаев**, Н.Л. Ерёмина**

КОНСТРУИРОВАНИЕ ДИАГНОСТИЧЕСКИХ РЕШЕНИЙ В СЛАБОСТРУКТУРИРОВАННЫХ ПРОБЛЕМНЫХ ОБЛАСТЯХ

‘Томский политехнический университет •‘Томский государственный педагогический университет

Объем информации, имеющейся в мире, непрерывно растет. Во многих отраслях знаний, таких как экономика, медицина, социология и др., накоплен и постоянно накапливается большой статистический материал. Это связано с тем, что имеющаяся компьютерная техника, а также средства измерения позволяют облегчить работу но сбору и хранению информации. Наряду с хранением информацию можно использовать для того, чтобы систематизировать, классифицировать различные явления, улавливать тенденции и прогнозировать будущее [ 1 ]. Для решения этой задачи разработано большое количество различных методов, в том числе и методов многомерного статистического анализа, особенности применения которых в слабоструктурнрованных проблемных областях и рассматриваются в данной статье.

При решении задачи формирования базы знаний для слабоструктурированных проблемных областей (например медицины, психологии и психодиагностики) наряду с традиционными статистическими методами широко используются методы, позволяющие выявлять закономерности на основе как экспериментальных, так и экспертных данных. Обзор большого количества этих методов представлен в работах Б.Л. Кобринского [2,3], где в одном из пунктов дальнейшего развития интеллектуальных систем указано на «интеграцию логических подходов и образных представлении», целесообразность которой не вызывает сомнения. Интеграция логических подходов, предложенная в монографии Л.А. Растрнгина [4], применялась нами в ряде прикладных исследований [5,6].

В работе предлагается технология конструирования диагностических решений, основанная на логических правилах, получаемых с применением описанных ниже методов, с последующим синтезом их мегаструкгуры. Эти методы в последние десятилетия приобрели широкую популярность, что связано с основными характеристиками этих методов: универсальностью (возможностью обработ ки статистической информации, включающей разнородные количественные и качественные показатели) и наглядностью их результатов.

Постановка задачи и описание методов конструирования диагностических решений

При решении задач анализа данных исходной информацией является набор объектов проблемной области, представленный характеризующими его признаками, которые измеряются в шкалах разного типа (разнот ииность признаков характерна для слабосгру к-турированных проблемных областей). Из полученных экспериментальных данных формируется матрица описаний, на основе которой требуется получить диагностические решения, представляющие собой конъюнкцию элементарных событий. В качестве элементарных событий рассматриваются отдельные значения какого-либо признака. Таким образом, диагностическое решение имеет вид логического правила: Если событие 1II событие 2 н ... н событие /гТо исход 1.

Рассматриваемая задача связана с выбором некоторого варианта сжатия описания объектов, при котором оставшейся информации достаточно для обеспечения правильного распознавания. Число подмножеств из и признаков, которые надо просмотреть, достаточно велико и может быть оценено по формуле

где / - общее количество признаков. Для высоких размерностей признакового пространства полный перебор является абсолютно нереальным. Поэтому существуют различные методы, позволяющие избежать полного перебора признаков [2, 3].

Для решения поставленной задачи используются методы локальной геометрии (81а1йгарЫс5) [7]. ограниченного перебора (\VizWhy), деревья решений (5се5). Выбор этих методов обусловлен доступностью и простотой эксплуатации систем, реализующих эти методы.

Метод локальной геометрии

Этот метод дает возможность рассматривать любой объект обучающей выборки как самостоятельный классификатор, обладающий полезными свойсгвамн для решения конкретной диагностической задачи. В резуль-

тате получается система логических правил, позволяющая улучшить классификацию и прогноз по сравнению с классическими математическими методами (кластерный анализ, дискриминантный анализ и др.) [7]. Данный метод требует несколько больших временных затрат, чем методы, представляемые ниже. Однако он «гарантированно приводит» к лучшим результатам по сравнению с классическими методами многомерного анализа данных, но только в том случае, если 1) границы диагностических классов не пересекаются, 2) исследуемых переменных порядка тридцати и 3) объектов не более 150. В противном случае использование данного метода нецелесообразно.

Метод ограниченного перебора

Данный метод, предложенный в середине 60-х М.М. Бонгардом [8], осуществляет перебор комбинаций простых логических событий в данных (ограничением служит длина таких комбинаций) с одновременным вычислением частот, на основании которых делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации и прогнозирования. Максимальная длина комбинаций, реализуемых в системе \VizWhy, равна 6. К недостаткам данной системы можно отнести следующее: при объемах выборки более 150 объектов и при наличии большого количества признаков (более 100) процесс поиска логических закономерностей сильно растянут во времени и линейно зависит от мощности компьютера. Кроме того, система выдаст заявленное авторами системы

«максимальное» число логических правил. В частности, при 130 объектах и порядка 70 признаков были получены более 12 000 правил, среди которых встречались правила, обладающие высокими значениями уровней значимости. Следовательно, целесообразно внести ограничение и на вывод правил, обладающих конкретным уровнем значимости (например 5 %).

Деревья решений

Деревья решений являются одним из наиболее популярных подходов к решению задач классификации, разбиения и прогнозирования и представляют собой логическую модель закономерностей исследуемого объекта (явления, события). Популярность подхода связана с наглядностью и понятностью получаемых решений, имеющих вид дерева. Система 5ее5 предусматривает перевод построенного дерева решений в набор логических правил. Данная система весьма эффективна: процедура поиска занимает всего несколько секунд, но, как правило, получаемые диагностические решения имеют не более 5-6 конъюнкций элементарных событий. В настоящее время известно несколько десятков компьютерных программ для построения деревьев решений. Эти программы отличаются кругом решаемых задач, используемыми ме-

тодами, уровнем сервиса, предоставляемого пользователям. Многие программы имеются в сетях Internet в свободном или ограниченном доступе (позволяющем познакомиться с программой). Одними из самых популярных в мире сейчас являются программные системы CART (предназначенные для решения задач распознавания образов и регрессионного анализа), С4.5 или модернизированный вариант этой системы See5 (для решения задач распознавания), которая и была использована в наших исследованиях.

Формирование фиктивных переменных

В отличие от метода ограниченного перебора и деревьев решений, метод локальной геометрии требует введение фиктивных бинарных переменных.

Переход от количественного признака к серии бинарных осуществляется с помощью разработанной Е.А. Муратовой системы UniData. Данная система позволяет формировать бинарные признаковые пространства как с привлечением, так и без привлечения эксперта, адаптируя их к особенностям решаемой задачи. В систему UniData включены различные способы выделения информативных подынтервалов, а именно:

- экспертное;

- равномерное;

- неравномерное [5];

- комбинированное выделение подынтервалов, основанное на комбинировании способа равномерного выделения интервалов с последующим объединением нулевых подынтервалов.

Таким образом, использование нескольких способов преобразования количественных признаков в бинарные позволяет получать различные варианты диагностических решений и выбирать такие, которые имеют лучшее качество распознавания, классификации и прогнозирования.

Синтез метаструктуры диагностических решений

Следующей задачей исследований являлся синтез метаструкту ры диагностических решений, что весьма сущест венно для построения баз знаний, требующих ввода понятий, метапонятий и семантических отношений на основе множества фрагментов знаний

о проблемной области. При рассмотрении сконструированных логических правил как отдельных понятий исследуемой проблемной области создастся система понятий, к которой предъявляются следующие требования:

1) уникальность или отсутствие избыточности;

2) полнота описания проблемной области;

3) валидность - соответствие выделенных единиц смысловой информации;

4) непротиворечивость.

4) непротиворечивость.

Установление взаимосвязей предполагает определение семантической близости между отдельными понятиями. Для установления взаимосвязи между логическими правилами следует выделить группы правил, в которых отдельные элементы появляются с определенной регулярностью. Внутри выделенных таким образом группировок устанавливаются ассоциативные взаимосвязи. Затем устанавливаются семантические отношения, т.е. определяется специфика взаимосвязи, полученной в результате применения тех или иных методов. Для этого можно построить дерево, вершинами которого будут концепты, а дугами - связки (например «приводит к», «обусловливая», «сочетаясь», «определяет» и т.д.). Это позволит установить наряду с базовыми отношениями отношения, специфические для конкретной проблемной области.

Еще один способ выявления метапонятий состоит в следующем. Если логические закономерности выявлять в локальном пространстве «типичных» объектов рассматриваемых диагностических классов, то полученные таким образом правила можно рассматривать как расстояния от центральных объектов в их собственных локальных метриках до всех остальных объектов выборки [7]. Затем с помощью одного из алгоритмов иерархической кластеризации определяются сходства и различия у полученных кластеров.

Апробация компьютерной технологии конструирования диагностических решений в области психологии

Предложенная технология была апробирована при решении двух прикладных задач из области социальной психологии:

1) определении специфики межпроцессуальных взаимосвязей когнитивных процессов и исследовании специфики организации ментального опыта субъектов с высоким уровнем интеллектуального развития [9];

2) исследовании, направленном на изучение роли условий социализации современных молодых женщин в формировании их репродуктивного поведения, а также личностных особенностей и состояния психической сферы в период беременности [ 10].

Гак, в первом исследовании были обследованы успешно обучающиеся студенты, магистры и аспиранты наиболее престижных факультетов технических

вузов г. Томска. Экспериментальная группа состояла из 127 человек. При этом 39 из них имели реальные достижения в интеллектуальной сфере деятельности (участие в грантах, международных стажировках, защита диссертации и др). Особенность выборки состояла в том, что абсолютно интеллектуально непродуктивные личности в состав испытуемых не входили.

Метод локальной геометрии потребовал предварительного формирования фиктивных бинарных переменных, причем было замечено, что следует разбивать диапазон изменения признака на 4-6 подынтервалов. В результате было сконструировано 5 логических правил.

В системе \VizWhy (метод ограниченного перебора) в соответствии с заданными параметрами поиска было построено 51 логическое правило. Максимальное число вложений составило 4.

В системе Бсеб был построен лес решений, состоящий из 10 деревьев, которые были переведены в логические правила (порядка 30 неперссскающихся правил). Максимальное число вложений составило 5.

На основе общей системы диагностических решений (как для первой, так и для второй задачи) были выделены группы правил, в которых отдельные элементы появляются с определенной регулярностью, что позволило установить семантические отношения, специфические для данной проблемной области.

Заключение

Использование представленной технологии конструирования диагностических решений в слабоструктурированных проблемных област ях и последующее построение метаструюуры диагностических решений позволяют построить достаточно адекватные модели проблемной области. Рассмотренные методы могут дополняться или заменяться другими методами поиска закономерностей, однако это потребует пересмотра процедуры построения метаструктуры получаемых иным способом диагностических решений.

Несмотря на имеющиеся недостатки рассмотренных методов построения диагностических решений в виде логических правил, авторам удалось выявить устойчивые закономерности в данных и гем самым расширить базу знаний при решении двух прикладных задач из области социальной психологии.

Работа выполнена при финансовой поддержке РФФИ, проект

№03-06-80128.

Литература

1. Бериков В.Б. Анализ статистических данных с использованием деревьев решений Новосибирск.. 2002.

2. Кобринский Б.А. Искусственный интеллект и медицина: возможности и перспективы систем, основанных на знаниях II Новости искусственного интеллекта. 2001. № 4.

3. Кобринский Б.А. Искусственный интеллект и медицина: особенности прикладных консультативных систем II Там же. 2002. № 4.

4. Растригин Л.А., Эренштейн РХ. Метод коллективного распознавания. М., 1981.

5. Берестнева О.Г и др. Эффективный алгоритм адаптивного кодирования разнотипной информации//Тр. конгр «Искусственный интеллект в XXI веке». Т. 1. М., 2001.

6. Yankovskaya А.Е. et al. Application of local metrics for formation and optimization of the knowledge base II Pattern Recognition and Image Analysis. 2001. Vol. 11. № 2.

7. Дюк В.А. Обработка данных на ПК в примерах: Статистические расчеты. Построение графиков и диаграмм. Анализ данных. СПб.. 1997

8. Бонгард М.М. Проблема узнавания. М.. 1967.

9. Берестнева О.Г. и др. Компьютерное моделирование специфики развития познавательных способностей II Компьютерное моделирование 2003: Тр. междунар. науч.-техн. конф. СПб., 2003.

10. Уразаев А.М. и др. Формирование социального и психологического портрета современных женщин в период репродуктивной активности II Вестн. Томского гое пед. ун-та. 2002. Выл. 3.

УДК 519.17:519.683.8

В.В. Кручинии

ИСПОЛЬЗОВАНИЕ ДЕРЕВЬЕВ И/ИЛИ ДЛЯ ПЕРЕЧИСЛЕНИЯ ВЫРАЖЕНИЙ КОНТЕКСТНО-СВОБОДНЫХ ЯЗЫКОВ

Томский государственный университет систем управления и радиоэлектроники

1. Введение

При решении разнообразных прикладных задач возникает проблема перечисления множества объектов. Например, при тестировании систем необходимо сгенерировать некоторое множество входных воздействий, причем желательно эффективно управлять процессом генерации этих воздействий. Поэтому часто возникает необходимость в построении алгоритма генерации множества объектов, при этом решаются следующие задачи:

1) подсчет количества объектов, получаемых с помощью генерирующего алгоритма;

2) построение и исследование алгоритмов нумерации объектов;

3) построение и исследование алгоритмов управления генерацией.

Мощность множества объектов для данного генерирующего алгоритма является важной характеристикой, позволяющей оценить возможности генератора. В общем случае, для исследования мощносги множества объектов используются методы теории перечислительной комбинаторики [1,2]. Имеются исследования, посвященные алгоритмам генерации и идентификации комбинаторных объектов, которые можно найти в работах [3,4]. Ниже предлагается оригинальные алгоритмы для нумерации и перечисления деревьев И/ИЛИ и разработка на их основе метода построения алгоритмов перечисления выражений контек-стно-свободных языков. Показан и исследован пример разработки алгоритма перечисления для языка арифметических выражений.

2. Перечисление деревьев И/ИЛИ

Деревья И/ИЛИ, понятие которых впервые было предложено Слейглом [5], являются важным инструментом исследования и создания систем искусствен-

ного интеллекта [6-8]. Дерево И/ИЛИ содержит два типа узла: И-узел и ИЛИ-узел. В терминах решения задачи И-узел означает, что решение задачи разбивается на подзадачи. Решение всей задачи зависит от решения всех подзадач. ИЛИ-узел означает, что задача может быть решена несколькими методами. Соответственно, для решения задачи, представленного ИЛИ-узлом, необходимо использовать какой-либо один метод. Существуют и другие интерпретации узлов дерева И/ИЛИ. Например, И-узел описывает структуру некоторой системы, подсистемы, блока и т.д., а ИЛИ-узел - некоторое множество типов структур.

Вариантом дерева И/ИЛИ назовем поддерево, которое получается из заданного путем отсечения выходных дуг, кроме одной, у всех ИЛИ-узлов. Вариант в терминах решения задачи задает одно из возможных решений задачи.

Рассмотрим алгоритм подсчета вариантов решений в дереве И/ИЛИ. Для этого запишем следующую рекурсивную функцию:

(0(2) =

^ сo(s*) для ИЛ И-узла,

Ы

я

["| со (.у;) для И-узла,

ы

1 для листа.

(1)

где 2 - рассматриваемый узел дерева; {} - множество сыновей узла 2; п - количество сыновей; 0(2) - количество вариантов для узла 2.

Подсчитав значение функции для корня дерева, можно получить общее число вариантов решений, имеющихся в данном дереве. При этом будет подсчитано количество вариантов для каждого узла всего дерева (рис. 1).

i Надоели баннеры? Вы всегда можете отключить рекламу.