Научная статья на тему 'О подходах к оцениванию информативности признаков в тестовом распознавании'

О подходах к оцениванию информативности признаков в тестовом распознавании Текст научной статьи по специальности «Математика»

CC BY
281
73
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Колесникова С. И.

Предлагаются два подхода к вычислению весовых коэффициентов характеристических признаков, используемых в тестовых системах поддержки принятия решения, а именно: подход на основе формализма мультимножеств и метода анализа иерархий и подход на основе упрощенного метода анализа иерархий, частично решающего проблему определения весовых коэффициентов признаков для случая, когда размерность признакового пространства достаточно велика. Обсуждаются методы, реализующие данные подходы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the approaches to estimation if feature informativity in the test recognition

Two approaches to the calculation of weighting coefficient of characteristic features used in test expert support systems are suggested, namely: the approach on the basis of variety formalism and the method of hierarchy analysis solving the problem of feature weighting coefficient definition partially for the case when dimension of the feature space is large enough. The methods realising the given approaches are discussed.

Текст научной работы на тему «О подходах к оцениванию информативности признаков в тестовом распознавании»

Применение декартовой системы координат в построенной модели позволяет производить исследования объектов как с осью симметрии, так и без нее. Особое внимание при рассмотрении подобных задач следует уделять построению геометрии исследуемого объекта, от которой зависит как скорость вычисления, так и вообще их возможность. Следует избегать избыточности мелких деталей, оказывающих малое влияние на динамику изучаемого процесса.

СПИСОК ЛИТЕРАТУРЫ

1. Егоров А.И. Основы теории управления. - М.: Физматлит, 2004. - 504 с.

2. Рапопорт Э.Я. Структурное моделирование объектов и систем управления с распределенными параметрами. - М.: Высшая школа, 2003. - 299 с.

3. Самарский А.А., Михайлов А.П. Математическое моделирование: Идеи. Методы. Примеры. - М.: Физматлит, 2001. - 320 с.

4. Шидловский С.В. Логическое управление в автоматических системах с перестраиваемой структурой // Известия РАН. Теория и системы управления. - 2006. - № 2. - C. 123-127.

Одной из наиболее важных проблем при создании интеллектуальных систем выявления закономерностей и поддержки принятия решений является проблема анализа признакового пространства на предмет выделения наиболее значимых признаков и оценивания величины их значимости [1, 2]. Несмотря на то, что этой проблеме посвящено большое количество публикаций, например, [2-4], до настоящего времени отсутствует корректное сравнение методов ее решения.

При решении многокритериальных задач выбора понятие относительной важности (весомости, значимости) критериев является основным [1-4]. Следует отметить, что более детально представлены результаты по многокритериальным функциям предпочтения, использующих базовые шкалы оценок альтернатив по критериям [5]. Функция предпочтения, как правило, представляет собой отображение множества альтернатив на числовую ось, и лучшей альтернативе приписывается большее число.

Таким образом, на основе проведенных исследований можно сделать вывод об эффективности структурно-перестраиваемых алгоритмов управления, позволяющих осуществлять высококачественное управление при неполной информации об объекте управления и наделяющих всю систему новыми свойствами, не присущими ни одной из фиксированных структур.

5. Агошков В.И., Дубровский П.Б., Шутяев В.П. Методы решения задач математической физики. - М.: Физматлит, 2002. -320 с.

6. Шидловский С.В. Автоматическое управление. Перестраиваемые структуры. - Томск: Томский госуниверситет, 2006. - 288 с.

7. Шидловский С.В. Логическая система с перестраиваемой структурой в задачах управления технологическими процессами // Автометрия. - 2005. - № 4. - С. 104-113.

8. Емельянов С.В. Системы автоматического управления с переменной структурой. - М.: Наука, 1967. - 336 с.

В интеллектуальных системах, основанных на методах тестового распознавания образов [2, 5, 7], для принятия решения используются «хорошие» тесты, т. е. тесты, содержащие меньшее количество признаков и с большим весом, где под весом теста понимается сумма весовых коэффициентов признаков [2].

Работа посвящена вычислению весовых коэффициентов характеристических признаков (ВКП), используемых в системах поддержки принятия решения [1, 2], основанных на тестовых методах распознавания образов.

Основные определения и понятия

Нижеприведенные методы вычисления весовых коэффициентов характеристических признаков основаны на матричной модели представления данных и знаний, включающей матрицу описаний 2 объектов в пространстве характеристических

УДК 519.7:007.52;519.81

О ПОДХОДАХ К ОЦЕНИВАНИЮ ИНФОРМАТИВНОСТИ ПРИЗНАКОВ В ТЕСТОВОМ РАСПОЗНАВАНИИ

С.И. Колесникова

Томский государственный университет систем управления и радиоэлектроники E-mail: skolesnikova@yandex.ru

Предлагаются два подхода к вычислению весовых коэффициентов характеристических признаков, используемых в тестовых системах поддержки принятия решения, а именно: подход на основе формализма мультимножеств и метода анализа иерархий и подход на основе упрощенного метода анализа иерархий, частично решающего проблему определения весовых коэффициентов признаков для случая, когда размерность признакового пространства достаточно велика. Обсуждаются методы, реализующие данные подходы.

признаков и матрицу различений Я объектов в пространстве классификационных признаков [2].

Элемент матрицы 2 задает значение у-го признака для /-го объекта. Строка д матрицы 2 сопоставляется объекту ..., /}), где / - число обучающих объектов. В случае, если у какого-либо объекта в матрице 2 значение признака отмечено символом «-», то считается, что значение соответствующего характеристического признака безразлично (признак может принимать как нулевые, так и единичные значения, а в случае Л-значных признаков - любые целочисленные значения признаков из заданного интервала значений признака).

Строки матрицы различений Я сопоставляются одноименным строкам матрицы 2, столбцы -классификационным признакам, определяющим различные механизмы разбиения объектов на классы эквивалентности (механизмы классификации). Элемент гу матрицы Я задает принадлежность /-го объекта одному из выделенных классов по у-му механизму классификации. Для указания факта принадлежности объекта классу используется номер этого класса при соответствующем механизме классификации. Множество всех неповторяющихся строк матрицы Я сопоставлено множеству выделенных образов. Элементами образа являются объекты, представленные строками матрицы 2, сопоставленными одинаковым строкам матрицы Я. Если имеется единственный механизм классификации, матрица различений вырождается в столбец, что соответствует традиционному представлению знаний в задачах распознавания образов [2].

Задача распознавания состоит в определении по матрицам 2 и Я образа, которому принадлежит заданный совокупностью признаков исследуемый объект, как правило, не входящий в обучающую выборку.

Назовем признаки зависимыми, если имеется хотя бы одна пара объектов из разных образов, различаемая этими признаками.

Совокупность признаков, различающих все пары объектов из разных образов (классов) при каждом механизме классификации, назовем диагностическим тестом (далее слово «диагностический» будем опускать).

Тест назовем безызбыточным (тупиковым [1]), если исключение любого признака из теста нарушает его свойство быть тестом.

При Яу-е {0,1,-} вводятся следующие определения [2].

1. Два объекта считаются различимыми, если хотя бы один характеристический признак в описании одного из них принимают значение 1 (0), а в описании другого - инверсное, т. е. значение 0 (1).

2. Под весовым коэффициентом признака понимается числовая оценка его различающей способности.

Постановка задачи. Пусть по матрицам 2 и Я построены все (часть) безызбыточные тесты, представленные матрицей тестов Т, строки которой со-

поставлены тестам, а столбцы - характеристическим признакам, и определено число различающих пар «объект-объект» по каждому характеристическому признаку.

Требуется определить весовые коэффициенты характеристических признаков, входящих в объединение всех (части) безызбыточных тестов [2]. При этом не исключается возможность достаточно большой размерности признакового пространства и наличия взаимозависимости признаков.

Методы оценивания весовых

коэффициентов признаков

При вычислении весовых коэффициентов характеристических признаков в тестовом распознавании [2], как правило, требуется выполнение условия независимости признаков (критериев) по предпочтению, либо не учитывается реально возможная их взаимозависимость (в смысле влияния оценки различающей способности одного из них на оценку различающей способности другого).

Остановимся кратко на методах оценивания весовых коэффициентов признаков в интеллектуальных системах поддержки принятия решений, используемых для вычисления весов тестов и имеющих отношение к поставленной задаче.

1. В методе, основанном на различающей способности признака [2], предлагается следующая формула для вычисления весового коэффициента кт т-го признака:

К-1 к ыг ы, 2 2 22 8*

г=1 г=г+11=1 ] =1

= -

т к-1 К

(1)

2 2

1=1 ]=г+1

где К - число выделенных образов; N — число строк в описании /-го образа; /е{г,/}, 8т=0, если Ят=Яут=0 или q¡m=qmm=1 (Ят и дут - элементы матрицы 2 из разных образов); 8тт=р р22й/ ; (й- - число значений «-» в /-ой строке матрицы 2, Р - коэффициент повторения /-ой строки), если дт=0 и Ят=1 или Ят=1 и Яут=0; 8тт=рр]2й/+йГ-1, если дш=«-» и (или) Яут=«-»; оу - число объектов в у-ом образе ]=1,...,К), вычисляемое по формуле:

С =2Л2*; те{1,2,...,М}.

к=1

Метод вычисления весовых коэффициентов признаков на основе оценки его различающей способности признаков весьма прозрачен, прост и эффективен при репрезентативной выборке, но при условии независимости оцениваемых признаков.

2. Основанный на формализме мультимножеств [3] и методе анализа иерархий (МАИ) [4] метод определения ВКП учитывает вклад признаков в распознающую способность теста с учетом их взаимозависимости и базируется на представлении совокупности всех различимых пар объектов из разных образов для каждого признака г, /=1,2,...,М, в

виде мультимножества, применении метода анализа иерархий Саати, использующего парные сравнения признаков на основе специальным образом выбранной меры относительной важности признаков, учитывающей их взаимозависимость [5].

Соответствующий признаку z.m m-й столбец матрицы Q порождает совокупность Рm различимых этим признаком пар объектов из разных образов {(i-j)\ieFr,jeFt,r^t,qim^q]m], где p={ff+1,...f+N/-1}, N - число строк в /-ом образе, f - номер 1-й строки в матрице Q для /-го образа, /e{r,t}, т. е. признак z.m порождает мультимножество Рт.

Метод состоит из трех этапов, на каждом из которых формируется матрица парных сравнений (МПС) признаков zh,zh,...,ziim,...,zk (¿„eil, ..., M}, g -количество признаков в тесте) на основе определенной меры относительной важности признака i над признаком j, в качестве которой поэтапно выбираются величины:

Ц p - Pj |)

\PA

(II)

8(|Pj - P |)'

8(/ P - P,. /)

(III) ЦПР—pij. <2)

где |Р| - мощность (общее количество элементов) 1-го мультимножества, соответствующего признаку /Р/ — размерность (количество элементов, встречающихся один раз) /-го мультимножества, Р—Р -разность мультимножеств, соответствующих признакам Zi и т, где 8(%)=%, если х^0, и 5(х)=1, иначе.

На ^-м (яе {1,2,3}) этапе по данному методу вычисляется g — компонентный вектор значений весовых коэффициентов признаков — Щгм>фм>!:2,...,м>ч, совпадающий со значением нормализованного главного собственного вектора соответствующей матрицы (по Саати [4] — локальные приоритеты). Вектор Ж>. Ж3)1/3 представляет

собой обобщенные значения весовых коэффициентов признаков (глобальные приоритеты [4]), входящих в тест.

Вышеуказанные меры позволяют учесть не только общие свойства сравниваемых признаков (степень сходства или различия), но, что особенно важно, и уникальные их свойства (степень приоритетности одного признака над другими).

Следующий результат устанавливает связь между двумя вышеупомянутыми методами.

Теорема 1. Нормализованный главный собственный вектор матрицы парных сравнений признаков W=(щi,щi,...,w^i) с мерой относительной

важности признака / над признаком у, равной р,

равен вектору W0=(w/0,w°,...,w/0), где ц>т — нормализованный коэффициент (т, /тЕ {1, ..., М}), полученный по формуле (1).

Известно, что при использовании метода анализа иерархий указанный способ определения весового вектора существенно опирается на свойство совместности матрицы парных сравнений и не является обоснованным в случае его нарушения.

Решение задачи

Кратко изложим подход, основанный на формализме мультимножеств и упрощенном МАИ, который частично решает проблему нахождения ВКП для случая достаточно большой размерности признакового пространства. Как известно, данная задача до сих пор является нетривиальной не только в случае задания предпочтений экспертами вручную, но и в случае, когда относительная важность ВКП вычисляется по предложенным в [2, 5] формулам. Например, в случае 50-ти признаков, используемых в задачах диагностики, количество парных сравнений составит 1200, что является не только трудоемким процессом, но и проблематичным для хранения такого объема данных в памяти ЭВМ.

Данный подход существенно опирается на идею В.Д. Ногина [6] о «базисных» элементах (расположенных выше (либо ниже) главной диагонали), на основе которых затем легко и без ошибок вычислительного характера находится искомый весовой вектор. Выбор конкретного «базисного» набора соответствует той или иной схеме сравнения объектов, которую можно выбирать с целью получения наиболее надежных результатов. Методы, реализующие данный подход, во-первых, основаны на совместной матрице А и, таким образом, избавлены от «модельной» ошибки; во-вторых, обеспечивают количество требуемых сравнений существенно меньшее традиционно требуемых.

Для изложения метода перечислим требования к матрице относительных весов

Щ

A = a

у \\ыvM

aj =

w,-

где — компоненты весового вектора

W=(w1,w2,...,wм)т [4]: 1) ау>0; /у=1,...,М; 2) а=а—1; /у=1,...,М; 3) а=ак-аку /у',к=1,...,М; 4) число Мявляется максимальным собственным значением матрицы А, и для некоторого единственного (нормированного) вектор-столбца W=(w1,w2,...,wM)T с положительными компонентами выполняется равенство: А W=M W.

Подход к решению данной проблемы, связанный с упрощенным вариантом МАИ, автором адаптирован следующим образом.

Сначала выбираются М—1 базисных элементов, на основе которых определяются все остальные элементы МПС. Способ выбора базисных элементов является задачей творческой и зависит от модели задачи (и решения эксперта), в частности, от выбранной меры сравнения относительной важности признаков. Применительно к рассматриваемой задаче рассмотрим два следующих метода в рамках указанного подхода.

Первый метод связан с выбором некоторого «идеального» признака-образца, в качестве которого может служить либо признак с наибольшим значением ВКП, рассчитанным по формуле (1), либо объединение и Р всех мультимножеств, по-

рожденных соответствующими признаками (/=1,...,М). Далее формируем первую строку на основе соответствующей меры относительной важности (2) признака-образца над остальными признаками, элементы которой являются базисными. Остальные элементы МПС находятся из условия, обеспечивающего выполнение свойства совместности матрицы парных сравнений:

= аП ■ а1 у =-

I = 2, М, у = 1, М.

(3)

Тогда компоненты весового ненормализованного вектора 1¥У=(1м1У,1м1,...,1мМ)т (верхний индекс «У» означает «упрощенный»), следуя теореме 1 [6], вычисляются по формуле:

м,у = ам, 1 = 1М. (4)

аи

Таким образом, компоненты весового вектора составляют последний столбец МПС А, элементы которой получены по формуле (3).

Преимущество данного способа с точки зрения трудоемкости вычислений очевидно: вместо вычисления М(М-1)/2 величин потребуется вычислить только 2М-3 величин, т. е. в М/4 раза меньше при достаточно большом объеме М. К тому же, в случае экспертного задания оценок, формулы (3), (4) обеспечивают не только экономию времени, но и согласованность МПС, т. е. избавляют от «модельной» ошибки.

Второй метод предполагает выбор базисных элементов a12,a23,...,aM-1д, который реализует схему последовательного сравнения (некоторый «идеальный образец» сравнивается с 1-м, затем 1-й сравнивается со вторым и т. д.).

Сформулируем основные результаты.

Теорема 2. Пусть МПС Л=||а..||МхМ построена по

следующим правилам: М М

1) элементы a12,a23,...,aM-1д являются базисными и

определяются по формуле:

ау =

5(| Р - У)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8(\Р} -Р|)

ау =

5(/Р -Ру /) 5(/Р, -Р/)

(5)

2) остальные элементы определяются по формуле:

а, = а,,-1 • а,_и , г = 1,М - 2, г < у -1. (6)

Тогда МПС А^^;!^ удовлетворяет всем требованиям относительных весов 1-4, и компоненты ненормированного собственного вектора V определяются по формуле:

• аМ-1,М ,г = 1М - 1 ™м = 1

г = 1, М -1, ] = 2, М;

Теорема 3. Если матрица парных сравнений -НКИ^ с элементами, вычисленными по формуле (2), удМоМвлетворяет всем требованиям относительных весов 1-4, то ее собственный вектор совпадает с собственным вектором МПС, элементы которой вычислены по формулам (5), (6).

Отметим, что второй способ предполагает вычисление компонентов собственного вектора по базисным элементам, определяемым по точным формулам (2), и количество требуемых сравнений определится числом М-1, что в М/2 раз меньше традиционно требуемых сравнений.

Иллюстративный пример. Пусть заданы матрицы 0, Я, Т, представленные на рисунке. Вычислим для отдельного теста значения весовых коэффициентов признаков по вышеизложенным методам, например, для теста Т1=(г5,г9,гц).

Для простоты изложения матрица различений Я представлена одним столбцом.

Заметим, что число строк матрицы 0 увеличится на 3, так как каждая из строк 3, 6, 7 представляет собой интервал булева пространства (содержит по одному символу «-») и представляется двумя строками.

Сравним численные значения весовых коэффициентов признаков, полученных по методу на основе МАИ [5] и методу, использующему упрощенный МАИ. Ввиду громоздкости МПС при большой ее размерности, а также имея в виду, что интерес, главным образом, представляет: а) погрешность в точности получаемых оценок по данным методам, т. е. где Vи WУ- нормализованные собственные векторы, соответствующим МПС; б) факт совместности МПС или значение индекса согласованности в указанных методах, рассмотрим получение значений весовых коэффи-

1 2 3 4 5 6 7 8 9 10 11 12 13

2 =

1 2 3 4 5 6 7 8 9 10 11 12 13

1 "1 1 1 1 1 1 1 1 1 1 1 1 0" "1"

2 1 1 0 0 0 1 0 1 0 1 1 0 0 2 1 "0 0 0 0 1 0 0 0 1 0 1 0 0

3 1 1 1 1 0 - 0 0 0 1 1 0 0 2 2 0 0 0 0 1 0 0 0 0 0 1 1 0

4 1 0 1 0 0 1 0 0 0 0 1 0 0 2 3 0 0 0 0 1 1 1 0 0 0 1 0 0

; я = ; т =

5 1 0 1 1 0 1 1 0 1 0 1 1 0 3 4 0 0 1 0 1 0 1 0 0 0 1 0 0

6 1 - 1 1 0 1 1 1 1 1 0 1 0 4 5 0 0 0 1 1 0 1 0 0 0 1 0 0

7 1 0 0 0 1 0 1 1 1 1 0 - 0 5 6 0 0 0 0 1 0 1 0 0 1 1 0 0

8 1 1 0 0 1 0 1 1 0 0 1 0 1 6

Рисунок. Матрицы описаний 0, различений Н и тестов Т

циентов признаков для вышеупомянутого теста Г1=(г5,г9,г11), построенного по матрицам 0, Я, Т, рисунок.

В матрице парных сравнений признаков на ос-

5(|Р -Р]\)

нове меры относительной важности —-

5(|р -Р|)

расположим признаки по неубыванию мощностей соответствующих разностей мультимножеств (табл. 1), учитывая, что |Р5-Р9=13, |Р9-Р5=15, |Р5-^И1=14, |Ри-Р5=14, |Р9-Рц=10, |РЦ-Р9=8.

Таблица 1. МПС признаков на основе меры относительной важности II и МАИ

Р9 Р5 Р11

Р'9 1 15/13 5/4 0,375

Р5 13/15 1 14/14 0,317

Р11 4/5 14/14 1 0,308

МПС признаков на основе выбранной меры относительной важности и упрощенного МАИ, т. е. формул (5), (6), имеет вид (табл. 2):

Таблица 2. МПС признаков на основе меры относительной важности II и упрощенного МАИ

Р'9 Р5 Р11

Р9 1 15/13 5/4 0,375 0,000

Р5 13/15 1 (5-13)/(4-15) 0,325 0,008

Р11 4/5 (4-15)/(5-13) 1 0,300 0,008

Обратим также внимание на погрешность, связанную с индексом совместности МПС по методу, основанному на мультимножествах и МАИ, имея в виду, что уровень отношения согласованности равен 0,001 (для применимости МАИ желательным считается значение, меньшее 0,1 [4]):

0 0,031 0,033"

0,023 0 0,027 .

0,022 0,026 0

Таким образом, «модельная ошибка» в методе, основанном на мультимножествах и точных формулах (1), оказалась больше (максимальное отклонение равно 0,033), чем максимальное отклонение \WМ—W^¡, равное 0,008, позволяющих в 2 раза сократить количество сравнений и упростить процедуру вычисления собственного вектора.

Для сравнительной оценки двух изложенных подходов к определению весов тестов может быть использован функционал качества, аналогичный введенному в [7], минимум которого укажет на более эффективный подход при принятии итогового решения для конкретной задачи распознавания.

Заключение

Весьма важным моментом в процессе выявления закономерностей данных и принятия решений в интеллектуальных системах является не только определение совокупности наиболее информативных (значимых) признаков (критериев), но и выявление отношений между ними. Приведенные методы позволяют количественно учесть вклад отдельного признака в различающую способность теста в условиях независимости (формула (1)) и возможной взаимозависимости (формулы (2), (5), (6)) входящих в тест признаков в условиях большой размерности признакового пространства.

Иллюстративный пример дает основание полагать, что учет специфики задачи с целью выбора соответствующего (более подходящего) метода приводит к построению более точных оценок значений весовых коэффициентов признаков, используемых в интеллектуальных системах поддержки принятия решений различного назначения.

Изложенный подход к определению ВКП, основанный на мультимножествах и упрощенном МАИ, может быть применен для решения реальных задач большой размерности с динамическими предпочтениями и приоритетами. Так, задача прогнозирования экспертных предпочтений связана с получением оценок приоритетности альтернатив в форме зависимостей от времени.

Для динамических задач матрица парных сравнений содержит функции времени в качестве элементов, поэтому максимальное собственное число Ягаах, а также собственный вектор Wтакже будут зависеть от времени, т. е. Л(£) W(t)=AШш(t) W(t). Известно, что для этого уравнения можно получить аналитическое решение [4], если порядок матрицы Л(0 не превышает четырех. В противном случае данное уравнение решается численными методами для различных моментов времени t с последующей аппроксимацией с целью получения зависимости компонент вектора приоритетов W(t) от времени. Предложенный метод вычисления ВКП на основе упрощенного МАИ позволяет снять ограничение на порядок матрицы Л(0 и следить за ее согласованностью во времени.

Теорема 1 содержит обоснование подхода, позволяющего существенно сократить количество вычислений при подсчете весовых коэффициентов признаков с мерами относительной важности признака I над признаком у, см. (2), учитывающими возможную взаимозависимость входящих в тест признаков.

Теоремы 2 и 3 содержат условие, гарантирующее применение предложенного подхода в задачах тестового распознавания без существенной погрешности.

Работа выполнена при финансовой поддержке РФФИ (проект № 04-01-00144), РГНФ (проект № 06-06-12603в).

а -:

СПИСОК ЛИТЕРАТУРЫ

1. Журавлев Ю.И., Гуревич И.Б. Распознавание образов и анализ изображений // Искусственный интеллект в 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д.А. Поспелова. - М: Радио и связь, 1990. - С. 149-190.

2. Yankovskaya A.E. Test Pattern Recognition with the Use of Genetic Algorithms // Pattern Recognition and Image Analysis. - 1999. -V.9. - №. 1. - P. 121-123.

3. Петровский А.Б. Упорядочивание и классификация объектов с противоречивыми признаками // Новости искусственного интеллекта. - 2003. - № 4. - С. 34-43.

4. Саати Т.Л. Принятие решений. Метод анализа иерархий. - М.: Радио и связь, 1993. - 315 с.

.И. О применении мультимножеств к задаче вычисления весовых коэффициентов признаков в интеллектуальных распознающих системах // Новости искусственного интеллекта. - 2004. - № 2. - С. 216-220.

6. Ногин В.Д. Упрощенный вариант метода анализа иерархий на основе нелинейной свертки критериев // Журнал вычислительной математики и математической физики. - 2004. - Т. 44. - № 7. - С. 1259-1268.

7. Янковская А.Е., Колесникова С.И. Поддержка принятия решений, коллективная оценка весовых признаков в интеллектуальных системах // Интеллектуальные системы. Интеллектуальные САПР: Труды Междунар. научно-техн. конференций. -М.: Физматлит, 2004. - С. 249-255.

Введение

Анализ реальных информационных систем показывает, что зачастую домены таблицы имеют небольшие множества значений. Например, атрибуты: «сотрудник», «зарплата», «профессия», «возраст», «дата», «время» и т. д. [1]. Поэтому возможно предложить следующую идею: каждому кортежу декартового произведения множеств степенью n ставится в соответствие число и вместо кортежа в базе данных хранится это число. Для этого зададим отображение:

F: A х А2 х ...х Ап ^ Nn,

где 4х^2х...хД, - декартово произведение множеств; Nn - множество номеров 0,n.

Если F биективно, то можно задать обратное отображение:

FNn ^ А1 х А2 х ...х А.

Таким образом, биективное отображение F задает алгоритм идентификации кортежа декартового произведения:

num = Rank (D, a),

где ае4х^2х...хД,, numeNn, D - описание множеств декартового произведения А^А^.хА,,. А oтображение F- задает алгоритм генерации значения кортежа по номеру:

a = Generate (D, num),

где ае4х^2х...хД,, numeNn, D - описание множеств. Тогда отношение ЕсА1хАгх...хАп, numeNn можно однозначно представить подмножеством целых чисел NUM^Nn.

Используя алгоритмы Rank и Generate можно предложить следующую структуру базы данных (рис. 1). При записи кортежа в базу данных работает алгоритм Rank, который присваивает номер данному кортежу. Далее этот номер хранится в базе данных. При выборке данных из базы работает алгоритм Generate, который по заданному номеру получает кортеж. Важным элементом является описание множеств декартового произведения D. Рассмотрим подробнее способы организации D, Rank, Generate.

Рис. 1. Описание структуры базы данных

5. Янковская А.Е., Колесникова С

УДК 519.6:004.652.4

ПОДХОД К СОЗДАНИЮ БАЗ ДАННЫХ, ОСНОВАННЫЙ НА АЛГОРИТМАХ ГЕНЕРАЦИИ И ИДЕНТИФИКАЦИИ КОРТЕЖЕЙ

В.В. Кручинин, А.В. Титков, С.Л. Хомич

Томский университет систем управления и радиоэлектроники E-mail: kru@ie.tusur.ru

Предложена оригинальная модель реляционной базы данных, в основе которой лежит представление доменов в виде деревьев И-ИЛИ. Разработаны оригинальные алгоритмы генерации и идентификации кортежей. Показана возможность существенного сжатия базы данных при небольших значениях мощностей доменов.

i Надоели баннеры? Вы всегда можете отключить рекламу.