Научная статья на тему 'Разработка классификационного куба знаний для нового класса информационных систем - электронных информотек'

Разработка классификационного куба знаний для нового класса информационных систем - электронных информотек Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
173
53
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Котиков Вячеслав Иванович, Денисова Елена Михайловна

В статье обсуждаются вопросы, связанные с использованием классификационного куба знаний в информаци-онно-поисковых системах электронных информотек. В результате сравнительного анализа десятичной системы Дьюи и классификационного куба знаний установлено преимущество классификационного куба знаний при созда-нии нового класса информационных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Котиков Вячеслав Иванович, Денисова Елена Михайловна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF THE CLASSIFICATION CUBE OF KNOWLEDGE FOR THE NEW CLASS OF INFORMATION SYSTEMS - ELECTRONIC INFORMOTEKS

In clause the questions connected with use of a classification cube of knowledge in information retrieval systems elec-tronic informoteks are discussed. As a result of the comparative analysis of decimal system of Dewey and a classification cube of knowledge advantage of a classification cube of knowledge is established at creation of a new class of information systems.

Текст научной работы на тему «Разработка классификационного куба знаний для нового класса информационных систем - электронных информотек»

2006

НАУЧНЫЙ ВЕСТНИК МГТУ ГА серия Прикладная математика. Информатика

№ 105

УДК 621.396; 681.51

РАЗРАБОТКА КЛАССИФИКАЦИОННОГО КУБА ЗНАНИЙ ДЛЯ НОВОГО КЛАССА ИНФОРМАЦИОННЫХ СИСТЕМ -ЭЛЕКТРОННЫХ ИНФОРМОТЕК

В.И. КОТИКОВ, Е.М. ДЕНИСОВА Статья представлена доктором технических наук, профессором Кринициным В. В.

В статье обсуждаются вопросы, связанные с использованием классификационного куба знаний в информационно-поисковых системах электронных информотек. В результате сравнительного анализа десятичной системы Дьюи и классификационного куба знаний установлено преимущество классификационного куба знаний при создании нового класса информационных систем.

Разработка нового класса информационных систем - электронных информотек (ЭИ), в которых должно осуществляться формирование электронного каталога и базы полнотекстовых интеллектуальных информационных ресурсов непосредственно их создателями с использованием сетевых технологий, требует определения их сущностной модели и классификации.

В зависимости от вида носителя интеллектуальной информации, под которой в дальнейшем будем понимать информацию, непосредственно создаваемую человеком на основе его знаний, можно провести и классификацию информотек: традиционные и гибридные библиотеки, электронные и электронно-биологические информотеки, знаниятеки [1].

Несмотря на множественность классов и видов информотек, все они представляют систему, обеспечивающую сбор, накопление, хранение, обработку и передачу информационных ресурсов пользователям по их запросам. Под электронной информотекой будем понимать систему, в которой авторы интеллектуальных информационных ресурсов сами создают полнотекстовый электронный документ и формируют в ней фонды и электронные каталоги на электронных носителях, а для их доставки в базы электронной информотеки и пользователям по их запросам применяются высокоскоростные электронные транспортные артерии.

В этом случае сущностная модель ЭИ (рис. 1) включает в себя четыре важнейших элемента,

образующих замкнутую систему, внутри которой циркулируют интеллектуальные информационные ресурсы [2]:

- авторы и пользователи информаци-

. онных ресурсов;

- информационные транспортные арте. рии;

- программно-аппаратный комплекс .

. управления информотекой;

- база информационных ресурсов.

Сам процесс генерации интеллектуальных информационных ресурсов можно выразить через классификационную

Рис. 1. Сущностная модель информотеки

систему, обладающую высокой устойчивостью по отношению к знаниям, на основе которых и создается интеллектуальная информация во всех сферах человеческой деятельности.

С точки зрения информационного поиска можно выделить два типа классификаций [3]. Первый - это классификация терминов, целью которой является группировка терминов в классы, обеспечивающие повышение вероятности совпадения терминов запроса и документа, и вто-

рой - классификация непосредственно электронных документов, которая позволила бы повысить результаты и оперативность поиска за счет обращения только к определенным частям массива базы информационных карт поиска. Оба типа классификаций взаимосвязаны. Присваиваемые документам термины служат основой для построения классов, получаемых в результате группировки электронных документов (ЭД). Классификация ЭД ЭИ позволяет сузить область поиска до тематических разделов и тем самым обеспечить высокую точность выдачи информационных карт, образующих генеральный каталог электронной информотеки, на запрос пользователя. При совместном использовании указанных двух типов классификаций можно достигнуть высоких показателей как по полноте, так и по точности поиска.

Для сопоставления множества интеллектуальных информационных ресурсов, создаваемых во всех областях человеческих знаний и размещаемых в ЭИ, необходимо, чтобы получающаяся при этом классификационная система обладала следующими свойствами [3]:

1. Классификация должна быть корректно определенной так, чтобы для любого заданного множества получался один результат.

2. Результаты классификации не должны зависеть от порядка обработки объектов, т.е. любая перестановка объектов не должна влиять на результат классификации.

3. Классификация должна быть устойчивой: незначительные изменения данных не должны изменять результаты классификации.

4. Классификация должна быть независимой от масштаба, поскольку умножение на константу значений характеристик, идентифицирующих объекты, не должны влиять на классификацию.

5. Объекты, обладающие большим сходством, не должны оказываться отнесенными к разным классам.

Проведенный анализ существующих классификационных систем позволил сформулировать

требования к новой классификационной системе: система должна быть построена по иерархическому признаку, обеспечивать эффективный поиск пользователю релевантных ЭД в ЭИ с учетом ее динамического развития и не требовать от авторов и пользователей специальных знаний в области описания ЭД, принадлежащих к различным областям науки, техники и образования.

Такая классификационная система должна содержать прежде всего вербальное описание классификационных единиц, объединенных в единый рубрикатор, на всех иерархических уровнях которого применяется алфавитный принцип размещения единиц классификации, что отвечает главному постулату воспроизводства знаний человечеством: независимо от развития науки, техники, культуры и образования все виды человеческой деятельности носят равноправный характер.

На рис. 2 представлено ранжирование ин-формотек в зависимости от объема накопленных документов. Выбор числа уровней классификации в информотеках может определяться объемом накапливаемых информационных ресурсов и их влиянием на эффективность работы информационно-поисковых систем.

Количестве

документов Е информотеке i

ЮООООООООС Интернет-ресурсь —ьф

1000000000 /

100000000 10000000 Класификационный куб знаний /

Электронные порталь ^ электронных информотек г

1000000 Университетская ^ библиотека Р

100000 ДК Дью1/ /

£ Библиотека

10000 ' двухгодичного колледже

1000 Личная библиотека

юс Энциклопедия

10 /

5 6 7 6 5 10 1' информотек!/

Рис. 2. Ранжирование информотек в зависимости от объема документов

Информотека личных коллекций, насчитывающая в среднем 900 - 1000 томов печатных изданий, не требует многоуровневой классификации и при формировании запроса на поиск нужного тома вполне достаточно иметь одноуровневую классификационную систему. Для классификации библиотечных ресурсов колледжа, насчитывающего 10-15 тысяч изданий одноуровневая классификационная система приведет к большим временным затратам на поиск необходимого издания. Переход к информотекам, в которых должны накапливаться сотни тысяч единиц хранения документов, требует построения классификационных систем с большим числом иерархических уровней. Эта область университетских библиотек и здесь широко используется классификационная система Дьюи и ГРНТИ ВИНИТИ.

Использование одноуровневой классификационной системы при создании гибридной ин-формотеки ГПНТБ, содержащей не более 75 единиц классификационного деления для библиографического описания научно-технической литературы, дает положительный результат только на начальной фазе ее развития. Размещение в гибридной информотеке все большего числа библиографических описаний печатных изданий приведет к росту выдачи на запросы пользователей нерелевантных сведений о документах и, как следствие, к увеличению временных затрат пользователя на экспертизу полученных данных для формирования последующего запроса.

С другой стороны, многоуровневые классификационные структуры тоже обладают недостатками. При слишком глубокой иерархической классификации снижается эффективность работы информационно-поисковой системы, так как пользователь на свой запрос не получает необходимой полноты информационных ресурсов и требуется многократное обращение к системе для достижения желаемого результата. Примером может служить первое издание рубрикатора ВИНИТИ, имеющего семиуровневую систему. Статистический анализ характеристик данного рубрикатора подтвердил этот вывод. Поэтому существует оптимальная структура построения классификационной системы, которая обеспечивает эффективность работы информационнопоисковых систем электронных информотек и получение релевантных документов пользователем на свой запрос при заданных значениях полноты и точности.

1. Выбор оптимальной структуры классификационной системы для электронных информотек на основе анализа рубрикаторов ВИНИТИ

Для выбора оптимальной структуры классификационной системы ЭИ был проведен анализ рубрикаторов [4], выпущенных ВИНИТИ и предназначенных для систематизации всего потока научно-технической информации, создаваемой в нашей стране.

Статистический анализ рубрикаторов ВИНИТИ показал, что первый классификационный уровень рубрикатора содержал не более 73 классификационных единиц. На втором классификационном уровне распределение элементов классификации носило случайный характер и колебалось в пределах от 0 до 39. На третьем уровне классификационной системы максимальное значение числа классификационных параметров достигало 70. Среднее значение классификационных параметров для всех выпусков ГРНТИ лежало около 11, независимо от развития науки и техники, что подчеркивает определенную устойчивость классификационной системы.

В табл. 1 представлено процентное содержание классификационных единиц ГРНТИ для второго и пятого изданий относительно максимального объёма, который обеспечивается использованием трёхуровневой классификационной системы при построении рубрикаторов.

Таблица 1

Распределение классификационных единиц ГРНТИ в рамках иерархической трехуровневой

классификационной системы

Интервал значений классификационных единиц Второе издание, % Пятое издание, %

1 - 10 0,48 0,526

11 - 20 0,106 0,181

21 - 30 0,03 0,018

31 - 40 0 0,023

41 - 50 0 0

51 - 60 0,001 0

61 - 70 0 0,001

Суммарное значение, % 0,62 0,75

Полученные результаты позволили определиться и с оптимальным количеством иерархических уровней классификационной системы рубрикатора ЭИ. Она должна быть построена на основе трехуровневой универсальной динамической классификационной (УДК) модели. Каждый ее уровень должен содержать не более ста вербальных элементов деления, что соответствует двум разрядам десятичного кода. В результате такой оптимальной структуры возможно сформировать 106 элементов классификации по всем областям человеческой деятельности, что на три порядка превышает существующую универсальную десятичную классификационную систему, предложенную Дьюи [5]. В таком рубрикаторе создается определенная избыточность, что отвечает обязательному требованию при проектировании любых электронных информотек, работающих в едином телекоммуникационном пространстве обмена информацией, и обеспечивается эффективная работа информационно-поисковых систем. Такая классификационная система отражает знания, которые создает человек в процессе своей познавательной деятельности. Поэтому в дальнейшем такую классификационную систему назовем классификационным кубом знаний. На рис. 3 представлен общий вид классификационного куба знаний и его реальное заполнение классификационными единицами, отражающими ГРНТИ ВИНИТИ 5-го выпуска.

ёСопоставление модели классификационного куба знаний и отраженных в его структуре результатов классификации научно-технической информации на примере

5-го выпуска ГРНТИ ВИНИТИ показывает, что весь классификационный потенциал ГРНТИ ВИНИТИ 5-го выпуска занимает в классификационном кубе знаний всего 0,75%.

Начальная классификация знаний с помощью двухразрядного десятичного кода, используемого в рубрикаторах ВИНИТИ, автоматически создает пороговую границу в его формировании на каждом уровне иерархии. Результаты познания окружающего нас мира - это случайный

Оптимальная модель классификационной структуры рубрикатора

Рис. 3. Структура классификационного куба знаний для электронных информотек и представление в нем ГРНТИ ВИНИТИ (5-й выпуск)

процесс, и по мере его изучения мы расширяем границы познаваемого в рамках классификационного куба знаний. Если в какой-то области человеческой деятельности число классификационных единиц превысит значение 100, то это не меняет общей структуры классификационного куба знаний, так как в основе его построения лежит вербальный способ классификации. Такой способ классификации для живой природы использовал Линней и благодаря этому обладает большим динамизмом в случае формирования новых классификационных единиц на каждом иерархическом уровне в случае открытия новых видов. При таком подходе каждому вербальному элементу классификации может ставиться в соответствие некоторый числовой код, который можно использовать при кластеризации накапливаемых информационных ресурсов и осуществлении поиска с использованием как вербального, так и цифрового запроса. Для информационно-поисковых систем ЭИ таким кодом является двоичное исчисление, для описания интеллектуальных информационных ресурсов, создаваемых на бумажных носителях, - это десятичный код.

2. Выбор классификационной системы с точки зрения эффективности работы алгоритмов поиска в режиме реального времени

Оценку эффективности алгоритмов поиска, которые закладываются в работу информационно-поисковых систем (ИПС) ЭИ, целесообразно проводить путем сравнительного анализа стратегий поиска, реализуемых пользователем путем кластеризации всего фонда электронной информотеки. Идея использования различных поисковых образов связана с увеличением вероятности получения релевантных документов [3]. Учитывая множественность запросов пользователей, которые можно в некоторых случаях классифицировать по определенным группам, для решения поставленной задачи целесообразно провести оценку эффективности различных алгоритмов поиска. С учетом трехуровневой классификационной системы рубрикатора, на основе которого пользователь может сформировать свой запрос поиска, вся база генерального каталога и полнотекстовые ЭД разбиваются на три уровня с формированием отдельных кластеров на каждом уровне, соответствующих элементу классификации.

Если общее количество информационных карт, соответствующих полнотекстовым ЭД в ЭИ будет равно Ыик, то путем построения оптимальной поисковой стратегии пользователь должен получить для анализа такую часть информационных карт ЭД аЫик, которая, с одной стороны, была бы достаточно мала и требовала бы небольшого времени для принятия окончательного решения о заказе полнотекстового ЭД, с другой стороны, достаточной по объему, чтобы содержать значительную часть информационных релевантных карт в полученном множестве, представляющих интерес для пользователя, т.е. отвечать задаче полноты в полученном множестве информационных карт.

Попробуем оценить количественные показатели эффективности различных алгоритмов поиска на основе классификационного куба знаний.

Вероятность обнаружения релевантной запросу пользователя информационной карты ЭД, содержащейся в ЭИ, в общем случае определяется выбранным алгоритмом поиска и общим объемом ИК, используемых ИПС при выборе релевантных документов

Рреп= 1 - ехр(-^ / Ыик) (1)

где V - скорость поиска ИПС ЭИ;

1 - время поиска во всей базе генерального каталога;

Ыик - общее число информационных карт ЭД, хранимых в ЭИ на момент начала поиска.

Скорость поиска определяется техническими характеристиками аппаратной части комплекса, время поиска непосредственно связано с выбранной стратегией поиска, которая отражается через алгоритм ИПС ЭИ и закладывается на этапе ее проектирования. Количество накопленных ЭД есть переменная случайная величина, которая определяется в общем случае интересом ав-

торов к размещению своих ЭД в ЭИ. На начальной стадии следует ожидать медленного увеличения объема накапливаемых документов и, следовательно, вероятность обнаружения релевантного ЭД будет очень высокой даже при выборе самого простейшего алгоритма поиска.

Будем считать, что средние априорные оценки количества релевантных информационных карт (ИК), соответствующих запросу среднего пользователя ЭИ, во всем массиве ИК и отдельной его части, выделенной алгоритмом поиска, будут соответственно равны А и Аа.п.. Причем А > Аап и оценка ведется до момента принятия решения пользователем по заказу полнотекстового

ЭД.

Апостериорные результаты поиска по запросу пользователя за время I, т.е. среднее количество релевантных и найденных информационных карт при поиске по двум выбранным масси-

вам электронной информотеки, соответствующих различным уровням классификационного куба знаний рубрикатора, можно определить из следующих соотношений:

<2 = Д1 - ехр(-^ / ЫиК ХЪ (2)

где V - скорость поиска в ЭИ по всему массиву электронного каталога;

1 - время поиска;

Ыик - общее количество информационных карт электронных документов, хранимых в ЭИ на начало поиска.

2 рел. = А ап. [1 - ехР(-^/аик )] (3)

где а- коэффициент, определяющий ту часть общего массива информационных карт электронного каталога, которая оказывается доступной для поиска при выбранном пользователем алгоритме поиска на каждом его шаге.

Выразим Аа.п. через аи А следующим образом. Примем, что средняя доля информационных карт Ыик , релевантных запросу пользователей, связанных с созданием интеллектуальной информации в одной из областей человеческой деятельности, из всего массива электронного каталога ЭИ, равна

(4)

N ик =

N ик

Величину Nик . можно рассматривать как средний «релевантный потенциал» электронного

каталога ЭИ. При этом важно подчеркнуть, что средний релевантный потенциал в ЭИ есть переменная величина, так как ее фонд постоянно изменяется авторами. С учетом ее динамического развития поиск релевантных документов должен обеспечиваться различными алгоритмами поиска для достижения цели. В последующем анализе предполагаем, что все элементы рубрикатора классификационной системы заполнены данными о полнотекстовых ЭД. Данное предположение соответствует предельному состоянию ЭИ. В действительности, это предположение значительно завышенное, но оно не влияет на конечные результаты анализа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Релевантный потенциал у отдельной информационной карты можно считать пропорциональным востребованности полнотекстового ЭД в течение года, т.е. сколько раз по выбранной информационной карте был заказан пользователями полнотекстовый ЭД за год. Функция плотности вероятностей распределения релевантного потенциала информационной карты со( у) определяется следующей аналитической зависимостью

а>(у) = —— ехр(——) при 0 < у < го (5)

^ик С

Рассмотрим теперь алгоритм поиска электронных документов информационно-поисковой системой по запросу, сформулированному пользователем. На основе заданного запроса система

исключает из поиска (1 - а) часть информационных карт ЭД с релевантным потенциалом от 0 до у0. Для решения поставленной пользователем задачи поиска ИПС располагает оставшимися аМик информационными картами. Верхний граничный релевантный потенциал у информационных карт, которые система не учла при поиске, и коэффициент а связаны следующим соотношением

а= С / (у)У = ехр(-^^) или у0 = N ик 1п(—). (6)

3 — а

уо N а

Если Nикап - средний релевантный потенциал информационной карты в доступном для поиска массиве электронного каталога, то его величина будет равна

— A 1

N икап = ----(1 + 1П ---) (7)

N a ^

Таким образом повышение среднего релевантного потенциала информационной карты в доступном для информационно-поисковой системы массиве электронного каталога полностью определяется той долей информационных карт, которая определилась на основании запроса пользователя. При этом среднее значение априорной оценки количества релевантных информационных карт при сформированном запросе пользователя будет равно

A ап = a A [1 + 1n(—)]. (8)

a

О поисковых преимуществах, которые обеспечивают различные алгоритмы поиска релевантных информационных карт электронных документов в массиве электронного каталога, можно судить по величине выигрыша в апостериорных результатах релевантных информационных карт, найденного при использовании двух массивов информационных карт электронных документов с применением различных алгоритмов поиска

Орен./О =a{[1 + ln (1/a)][1 - exp (- vt/aNu,<)]}/ [1 - exp (- vt/Nur)]- (9)

С учетом высоких скоростей поиска v, которые обеспечиваются современными поисковы-

ми машинами, величина выигрыша определяется тем алгоритмом поиска, который разделяет все множество информационных карт электронных документов на два подмножества

ОреЛ./О =1 + ln (1/a). (10)

В табл. 2 приведены значения выигрыша в получении пользователем релевантных инфор-

мационных карт при различных объемах накопленных электронных документов в ЭИ и алгоритмах поиска, основанных на использовании классификационного куба знаний с равномерным распределением электронных документов по рубрикатору и ДК Дьюи.

Из полученных результатов следует, что применение классификационного куба знаний обеспечивает больший выигрыш при получении релевантных документов на запрос. Однако на начальном этапе формирования ЭИ этот теоретический выигрыш оказывается нереализованным при робастном режиме работы программно-аппаратного комплекса, так как в большинстве классификационных единиц рубрикатора второго и третьего уровней будут отсутствовать электронные документы. Поэтому для реализации эффективных алгоритмов поиска на всех этапах развития ЭИ необходимо использовать адаптивный режим работы программно-аппаратного комплекса в саморазвивающихся электронных информотеках, при котором сохраняется полнота использования всего рубрикатора для авторов, создающих свои информационные ресурсы во всех областях человеческой деятельности, и частичное использование рубрикатора при формировании запроса пользователем. При этом достигается теоретический выигрыш при кластеризации всего массива документов с исключением вариантов поиска в тех классификационных единицах, где отсутствуют на момент поиска ЭД.

Таким образом, использование классификационного куба знаний при систематизации интеллектуальных информационных ресурсов по всем областям человеческих знаний позволяет реализовать оптимальные алгоритмы работы информационно-поисковых систем как для авторов, так и для пользователей при использовании адаптивного режима.

Таблица 2

Зависимость выигрыша от стратегии поиска и объема накопленных полнотекстовых

электронных документов

Размер электронного каталога ЭД, хранимого в ЭИ, ^ик Доля электронного каталога ЭД, доступного для поиска, Дьюи/ККЗ а Объем электронного каталога ЭД, доступного для поиска (рубрикатор Дьюи), аКик Объем электронного каталога ЭД, доступного для поиска(класси-фикационный куб знаний), а-^ик Поисковый выигрыш в нахождении релевантных запросу пользователя ИК по Дьюи, 0а.п./0 Поисковый выигрыш в нахождении релевантных запросу пользователя ИК по ККЗ, 0а.п./0

1000 0,1/10-2 100 10

5000 0,1/10-2 500 50

10000 0,1/10-2 1000 100 3,3 5,6

100000 0,1/10-2 10000 1000

1000000 0,1/10-2 100000 10000

1000 0,01/10-4 10 0,1

5000 0,01/10-4 50 0,5

10000 0,01/10-4 100 1 5,6 10,2

100000 0,01/10-4 1000 10

1000000 0,01/10-4 10000 100

1000 10-3/10-6 1 0,001

5000 10-3/10-6 5 0,005

10000 10-3/10-6 10 0,01 10,2 14,8

100000 10-3/10-6 100 0,1

1000000 10-3/10-6 1000 1

Создаваемые электронные информотеки являются динамическими информационными системами, и для повышении эффективности работы их информационно-поисковых систем необходимо использовать рубрикатор, в основе которого лежит вербально-алфавитный принцип описания классификационных единиц, а сами электронные информотеки должны работать в адаптивных режимах.

3. Классификационный куб знаний как базовый элемент сравнительного анализа развития цивилизаций по уровню знаний

Классификационный куб знаний в общем случае является отражением созданных человечеством знаний, и поэтому в рамках своей структуры позволяет провести сравнительный анализ уровня знаний человечества на всех этапах его развития, определить классификационную энтропию знаний для различных периодов, рассчитать скорость роста классификационной энтропии и определить в конечном итоге прогнозные характеристики его использования для классификации знаний. С этой целью были созданы классификационные кубы знаний для цивилиза-

ций, существовавших в различные временные периоды [6]. Классификационная энтропия знаний соответствует источнику, в роли которого выступает человечество, создающее по случайному закону знания во всех областях науки, техники и образования. Учитывая, что эти знания можно выразить через классификационный куб знаний [6], то при равновероятном событии появления классификационных единиц максимальное значение классификационной энтропии знаний в определенный временной срез для дискретного источника знаний (человечества) определяется следующим выражением [6]:

Нцив(Т) =

где N - общее число единиц в классификационном кубе знаний цивилизации.

На рис. 4 представлена зависимость классификационной энтропии Н(Т) уровня знаний человечества за 7,5 тыс. лет. Из представленной характеристики наглядно видно, что рост классификационной энтропии знаний человечества происходит по линейному закону с очень небольшими флуктационными отклонениями. Аналитическая зависимость роста классификационной энтропии знаний имеет следующий вид

Н (Т ) = 5,5 X 10 -4 Т + 11,65 ,

где Т - время в годах.

■Є -£ -А -3 -2 С ' 2 Т(тыс лет)

Рис. 4. Изменение классификационной энтропии знаний человечества

Как показывают расчеты, классификационный куб знаний позволит человечеству успешно осуществлять классификацию вновь создаваемых знаний в течение ближайших 15 тыс. лет. При этом наиболее устойчивые первые артефакты знаний человечества должны относиться к периоду, лежащему более 23 тыс. лет назад. Это позволяет утверждать, что более 23 тыс. лет назад человечество обладало высокой познавательной способностью и способностями создавать знания, которые можно отразить в классификационном кубе знаний в виде элементов рубрикатора. Это находит подтверждение в археологических находках последних лет. Не менее интересным результатом, который вытекает из рассмотрения классификационного куба знаний для различных цивилизаций, является вопрос, связанный со скоростью роста классификационной энтропии знаний. Как показывают расчеты, скорость роста классификационной энтропии знаний человечества не превышает величины 5,5х10-4 бит/год, что говорит об очень медленном процессе создания новых классификационных единиц знаний человечеством и подтверждается всеми ГРНТИ ВИНИТИ.

Из рис. 4 видно, что классификационная система, созданная Дьюи и используемая для классификации интеллектуальной информации, оказывается явно недостаточной для классификации современной информации, так как исчерпала свои возможности по классификационному уровню знаний человечества еще более 4,5 тыс. лет назад, хотя и была создана в конце XIX столетия. Именно это привело к тому, что сегодня используются различные классификационные системы в области науки и образования и соответствующие рубрикаторы для описания

интеллектуальных информационных ресурсов. Созданный классификационный куб знаний позволяет классифицировать знания, создаваемые человечеством, еще в течение 15 тыс. лет.

Выводы

В соответствии с принятой концепцией формирования полнотекстовой базы интеллектуальных информационных ресурсов непосредственно их создателями, работающими во всех областях человеческой деятельности, необходимо использовать классификационный куб знаний для систематизации интеллектуальных информационных ресурсов, размещаемых в электронных информотеках.

Скорость роста классификационной энтропии знаний человечества не превышает величины 5,5х10-4 бит/год, что позволило определить границу применимости классификационной системы Дьюи и дать сопоставимый анализ уровня знаний различных цивилизаций. Современный уровень знаний человечества, определенный по классификационному кубу знаний, только в 7 раз превышает уровень знаний древних шумер. Это нашло отражение в скорости роста классификационной энтропии знаний.

ЛИТЕРАТУРА

1. Котиков В.И. Электронная библиотека: от концепции до реализации // Научный Вестник МТГУ ГА, серия Информатика, № 45, 2003. С. 53-64.

2. Котиков В.И. Электронная информотека - новый класс информационных систем //Труды Международного форума по проблемам, науки, техники и образования. Т. 1; Под ред. В.П. Савиных, В.В. Вишневского. - М.: Академия наук о Земле, 2004. С. 131-133.

3. Солтон Дж. Динамические библиотечно-информационные системы / Пер. с анг.; Под ред. В.Р. Хисамутди-нова. - М.: Мир, 1979.

4. Государственный рубрикатор научно-технической информации. - 5-е изд. - М.: ВИНИТИ, 2001.

5. Универсальная десятичная классификация. - 3-е изд. - М.: Издательство стандартов, 1987.

6. Котиков В.И., Денисова Е.М. Артефакты древних цивилизаций в классификационном кубе знаний. // Информация для всех: культура и технологии информационного общества: Материалы международной конференции. - М., 2003. С. 11-6-1, 11-6-3.

DEVELOPMENT OF THE CLASSIFICATION CUBE OF KNOWLEDGE FOR THE NEW CLASS OF INFORMATION SYSTEMS - ELECTRONIC INFORMOTEKS

Kotikov V.I., Denisova E.M.

In clause the questions connected with use of a classification cube of knowledge in information retrieval systems electronic informoteks are discussed. As a result of the comparative analysis of decimal system of Dewey and a classification cube of knowledge advantage of a classification cube of knowledge is established at creation of a new class of information systems.

Сведения об авторах

Котиков Вячеслав Иванович, 1941 г.р., окончил МЭИС (1967), член-корреспондент Международной академии информатизации, кандидат технических наук, профессор МГТУ ГА, заместитель начальника ИВЦ, автор более 60 научных работ, область научных интересов - электронные информотеки и информационные технологии.

Денисова Елена Михайловна окончила МГТУ ГА (2002), аспирантка МГТУ ГА, автор более 10 научных работ, область научных интересов - классификационные системы и информационные технологии.

i Надоели баннеры? Вы всегда можете отключить рекламу.