Научная статья на тему 'Интеллектуальный сетевой архив электронных информационных ресурсов'

Интеллектуальный сетевой архив электронных информационных ресурсов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
220
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Интеллектуальный сетевой архив электронных информационных ресурсов»

Таким образом, разработана модель рабочей нагрузки на основе потоковых диаграмм; разработана методика и алгоритм слияния двух видов описаний сети: прикладного описания на уровне прикладных процессов и транспортной структуры сети. Разработана система проектирования корпоративных сетей с учетом моделирования маршру-

тизации в распределенных корпоративных сетях с использованием четких и нечетких параметров. Проведены вычислительные эксперименты по исследованию эффективности разработанной САПР ВС. Разработанная на основе данного подхода САПР ВС была отмечена медалью на Международном салоне изобретений в Женеве в 2006 г.

ИНТЕЛЛЕКТУАЛЬНЫЙ СЕТЕВОЙ АРХИВ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ

А.М. Наместников, к.т.н.; Н.В. Корунова, А.В. Чекина (УлГТУ, г. Ульяновск)

Решение задач информационного поиска (ИП) электронных информационных ресурсов (ЭИР) имеет сегодня существенную научную и практическую ценность. Для решения задач ИП ЭИР применяют специальный класс автоматизированных систем - информационно-поисковые системы (ИПС).

Существующие ИПС предлагают различную функциональность и технологичность для повышения качества и скорости поиска. К сожалению, большинство ИПС направлено на решение определенных задач: систематизация данных, поиск веб-ресурсов, классификация электронных ресурсов, управление электронными документами, управление потоками работ и т.п. Для управления любыми ЭИР и информацией об ЭИР используется отдельный вид ИПС - системы управления знаниями. Данный вид систем позволяет значительно расширить возможности коллективной работы, работ по управлению проектами и предлагает интеллектуальные средства для работы с информацией (по анализу, хранению, поиску и представлению).

Анализ программного обеспечения дает возможность утверждать, что отсутствуют универсальные автоматизированные средства и классификаторы, позволяющие систематизировать информационные ресурсы по любому основанию. Вместе с тем существуют отдельные отрасли человеческой деятельности, призванные решать задачи ИП, например, архивная и библиотечно-библиографическая деятельности, где накоплен богатый опыт хранения, индексации и поиска информации. Объединение опыта и современных технологий может существенно повысить качество информационного поиска.

В НПО «МАРС» (г. Ульяновск) находится в эксплуатации программное средство автоматизации деятельности архивной службы ЭИР. Была поставлена задача расширить функционал данного программного средства с целью автоматизации части функций архиваторов и интеллектуализации части процессов по управлению информацией.

Для построения интеллектуального сетевого архива (ИСА) ЭИР существующую систему управления БД необходимо дополнить модулем индексации и модулем кластеризации и классификации.

На модуль индексации возложены задачи предобработки текстовых документов или аннотаций к ЭИР и построение частотных словарей встречающихся терминов. Сохранение частотных таблиц необходимо производить в СУБД MS SQL 2005. В рамках модуля кластеризации и классификации на основе значений относительных частот должны создаваться предметно-ориентированные кластеры, которые организуются в виде иерархии. В процессе классификации выполняется задача соотнесения вновь заносимого ЭИР с определенным кластером.

Информационная система предполагает три группы пользователей: архивариус, проектировщик и администратор. Архивариус занимается систематизацией проектов, проектировщик производит занесение информационных ресурсов в БД и осуществляет их поиск. Администратор осуществляет настройку функциональности ИСА ЭИР.

Функция систематизации проектов, которую выполняет архивариус, включает в себя проверку пользователя, модификацию дерева классификации и модификацию кластеров. Проекты сохраняются в БД проектов. Функция занесения и поиска проектов, которая закреплена за проектировщиком, включает в себя проверку пользователя, занесение новых проектов, удаление и поиск проектов. Задача настройки функциональности, выполняемая администратором, включает настройку частотных словарей, настройку работы классификатора и кластеризатора.

Реализация интеллектуального сетевого архива

Модуль индексации представляет собой отдельный модуль программы, предназначенный для предварительного анализа ЭИР (форматы MS Word, RTF, простой текстовый формат и пр.)

с целью формирования данных для проведения процессов кластеризации и информационного поиска.

Индексатор позволяет пользователю:

- интерактивно указать группу документов для анализа,

- запустить процесс индексирования.

В процессе работы индексатор ведет журнал контрольных событий (выводит на экран и записывает в fog-файл).

Словари в БД представлены двумя таблицами:

- словари терминов английского языка,

- словари терминов русского языка.

Временные таблицы. В процессе индексирования используются таблицы промежуточных данных:

- хранение промежуточных данных при занесении данных в БД;

- хранение неопознанных при эксперименте терминов.

Результирующие таблицы содержат данные, необходимые для проведения экспериментов по кластеризации и информационному поиску:

- частотный словарь проиндексированных документов,

- справочник проиндексированных текстов,

- полный частотный словарь (содержащий также и нулевые частоты),

- словарь терминов, определенных на наборе документов.

Процесс формирования списка слов документа. Индексатор для получения простого текста (в формате ANSI) электронного документа использует средства объекта Word.Application. Для этого на рабочей станции должен быть установлен Microsoft Word.

Индексатор вычленяет из текста слова, используя для этого правило: «каждое слово отделяется от другого пробелом». При формировании списка слов удаляются символы, не входящие в набор символов русского и английского языков.

Процесс занесения данных в БД. После формирования списка слов документа полученные слова, если они встретились в словарях БД (словари основ терминов русского и английского языков), заносятся в промежуточную таблицу. В противном случае неопознанные слова переносятся в таблицу неопознанных при эксперименте термов.

После переноса слов во временную таблицу данные группируются и заносятся в частотный словарь проиндексированных документов. Также на этом этапе индексирования формируются данные в справочнике проиндексированных текстов, в полном частотном словаре и в словаре терминов, определенных на наборе документов.

Формирование частотных словарей. Для оценки значимости слов в индексаторе используется методы определения частот слов каждого документа и частот, рассчитанных по формуле Шен-

Sk

нона (сигнал-шум): wt , где Nk - шум тер-

мина; Nk = ^log—^ , где fk - частота k-го i=iF fi

термина в i-м документе; Fk - частота k-го тер-

n k

мина по всем документам; S - сигнал термина Sk=logFk-Nk .

Данные показатели хранятся вместе со словами в результирующей таблице частот терминов.

Описание модуля кластеризации и классификации: модуль кластеризации и классификации представляет собой отдельный модуль программы, предназначенный для разбивки массива текстовых документов на классы на основе частотных портретов, полученных при проведении процесса индексирования.

Для кластеризации применяется нейронная сеть, использующая метод обучения без учителя (unsupervised learning) - самоорганизующие карты Кохонена (Self-Organizing Map - SOM).

Кластеризатор позволяет пользователю выполнить следующие действия:

- интерактивно настроить параметры подключения и подключиться к БД,

- интерактивно изменить параметры нейронной сети,

- запустить процесс кластеризации,

- сохранить полученный результат в БД.

Входные данные для кластеризации хранятся

в следующих таблицах:

- таблица метаданных,

- справочник проиндексированных текстов,

- полный частотный словарь (включая нулевые термины).

Результирующие таблицы содержат данные, необходимые для проведения экспериментов по информационному поиску. Таблицы, хранящие результат кластеризации, содержат информацию по кластерам:

- таблица кластеров,

- таблица связей между кластерами и терминами,

- таблица связей между кластерами и информационными ресурсами.

Таблицы, хранящие настроенную нейронную сеть, содержат списки:

- нейронных сетей,

- выходных сигналов нейронов,

- весов нейронов.

Особенности реализации нейронной сети. К

классическому представлению нейронной сети в виде двухмерной матрицы NxN нейрона добавлено третье измерение - веса каждого нейрона в виде динамического массива (см.: Ярушкина Н.Г. Нечеткие нейронные сети. // Новости искусственного интеллекта. 2001, № 2-3; Bothe H.-H. Fuzzy Neural Networks. rague: IFSA, 1997).

Fk

В качестве параметров нейронной сети используются: норма обучения, множитель для нормы обучения, радиус активности области нейрона-победителя, число производимых итераций, шаг модификации.

Процедуры работы с нейросетью. В системе используются две основные процедуры настройки нейронной сети: инициализация весов нейронов случайным образом и самообучение сети Кохоне-на (алгоритм 80М)

Алгоритм 80М (повторяется для каждого входного вектора):

Шаг 1. Инициализация параметров сети.

Шаг 2. Цикл по числу итераций в сети.

Шаг 2.1. Определение расстояний между входным вектором X и вектором весов W каждого

нейрона по формуле: ^ = ^У/ х1 — )2 .

Шаг 2.2. Определение нейрона-победителя, с минимальным расстоянием.

Шаг 2.3. Определение области активации нейрона-победителя.

Шаг 2.4. Определение весов нейронов внутри области активации по формуле:

Wj(t+1 )+а[Х —Wj(t)] .

Шаг 3. Запись документа в массив кластеров.

Выходной поток кластеров представляется в

При попадании документа в кластер на пересечении ставится единица. Данная таблица является результирующей и, преобразованная в дерево результатов (где корневые директории - кластеры, содержащие каждый свои документы), выводится на экран.

Сеть S0M имеет набор входных элементов (частотные портреты текстовых документов, которые необходимо инициализировать из БД) и набор выходных элементов (иерархию кластеров), отображающихся в виде дерева результатов. Обучение нейронной сети происходит на каждом документе.

Описание экспериментов

Для обработки были выбраны 65 документов из проектной документации НПО «МАРС». Документы были обработаны индексатором, который преобразовал их в частотные портреты (выделены термины с частотой встречаемости в исследуемом документе). При этом был произведен отбор только терминов, приведенных к основе с помощью морфологического анализа, а также исключены стоп-слова.

Полученные данные из 65 документов с 1346 терминами были обработаны кластеризатором с использованием нейронной сети Кохонена. По-

скольку данная нейронная сеть является настраиваемой, то есть имеет несколько изменяемых параметров, в ходе эксперимента было обучено 146 таких нейронных сетей с разными комбинациями настроек.

Результаты наиболее ярко выраженных комбинаций настраиваемых параметров приведены в таблице.

Таблица

Параметры обучения нейронной сети т

№ зло ней-юв и а и ^ я ^ я иа Норма обучения Множитель нормы обучения -е т и о =я ли с Шаг модификаций о с с а о л с

н ио № а аи Рч н иа № Л и №

1 49 1 0,9 0,9 1000 200 3

2 100 2 0,7 0,9 2000 100 7

3 121 0 0,9 0,9 2000 100 2

4 25 1 0,6 0,6 1000 200 5

5 100 5 0,9 0,9 2000 100 1

6 25 5 0,6 0,9 1000 200 1

7 25 1 0,4 0,9 1000 200 19

8 25 2 0,6 0,7 3000 500 1

9 100 1 0,6 0,9 1000 200 5

10 25 1 0,6 0,9 3000 200 6

В ходе исследований были выявлены следующие тенденции.

• Число нейронов должно быть не меньше предполагаемого числа полученных кластеров. Увеличение числа нейронов не влияет на разбиение данных.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Радиус активации определяет область нейронов, которые подлежат обучению. Чем меньше и быстрее будет сокращаться данная область, тем больше классов будет выделено, тем выше точность и меньше полнота.

• Норма обучения (коэффициент обучения): чем ниже значение, тем больше множество отдельных классов, выше точность и меньше полнота кластеризации.

• Множитель нормы обучения (характер изменения области активации): чем ниже множитель, тем меньше множество отдельных классов, то есть преобладает тенденция нейронов объединяться в однотипную группу.

• Число итераций: оптимальное количество 2000, при увеличении результат значительно не изменяется. При уменьшении значения наблюдается обобщение данных, теряется точность.

• Шаг модификаций (быстрота изменения параметров): чем меньше шаг, тем быстрее уменьшается норма обучения и радиус активации. Образуется больше классов, выше точность и меньше полнота кластеризации.

Время обработки данных резко увеличивается при увеличении числа итераций, числа нейронов, радиуса активации, при уменьшении нормы обучения и множителя нормы обучения.

В результате проведенных исследований были

виде динамического двухмерного массива:

Документ 1 Документ 2 Документ 3

Кластер 1 1

Кластер 2 1 1

получены оптимальные комбинации настраиваемых параметров для разбиения документов про-

ектного репозитория в зависимости от желаемой детализации классов.

РАСЧЕТ НЕЧЕТКОГО СБАЛАНСИРОВАННОГО ПОКАЗАТЕЛЯ В ЗАДАЧАХ ВЗВЕШИВАНИЯ ТЕРМИНОВ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ

А.Г. Селяев (НПО «МАРС», г. Ульяновск)

Электронные документы (ЭД) занимают существенный объем в круговороте информационного обмена. Решение задач информационного поиска текстовых ЭД в современных условиях осложняется рядом проблем: неструктурированность информации, постоянный ее рост и дублирование, искажение информации в результате многократного цитирования, отсутствие эффективных механизмов подтверждения актуальности и достоверности информации, достижение оптимальных показателей информационного поиска, фрагментарность ЭД, решение вопросов безопасности ЭД, децентрализованный характер наполнения хранилищ ЭД, потребность в быстром и качественном поиске информации, необходимость производить тематический мониторинг ресурсов. Указанные проблемы решают автоматизированные системы специального класса - информационно-поисковые системы (ИПС). ИПС будем называть программно-аппаратный комплекс, обеспечивающий механизмы индексирования, хранения и поиска ЭД.

Индексирование документов является операцией, обеспечивающей возможности информационного поиска. В настоящее время наиболее популярными являются методы координатного (или векторного) индексирования (Мидоу Ч. Анализ информационно-поисковых систем. М.: Мир, 1970). Классическое описание процесса индексации включает операцию взвешивания (Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1978). Операция взвешивания терминов приписывает терминам некоторый вес, отражающий предполагаемую важность термина в документе или наборе документов. Существуют разнообразные алгоритмы получения числовой характеристики значимости термина, позволяющие автоматизировать операцию взвешивания.

Сравнительный анализ алгоритмов взвешивания терминов

Алгоритмы абсолютных частотных мер.

Первые серьезные работы по автоматическому анализу текста проводились в середине 50-х годов прошлого века Х.П. Луном. Лун впервые использовал абсолютные частотные меры: частота появления термина в документе и суммарная частота термина в наборе документов. Указанный метод

основывается на простом приравнивании веса к его частоте появления в тексте: wi = freq(xt ) . Развитием частотного метода является метод вычисления нормализованной частоты (TF - term

freq(xi )

frequency), то есть wt =fi =-.

max(freq(xi))

Алгоритм относительных частотных параметров. Усовершенствование указанных выше грубых оценок частотности заключается в использовании относительных частотных параметров. Так что частоту появления термина в одном наборе можно сравнить с частотой появления тех же терминов во всем объеме литературы. Если частоты термина в данном наборе или в данном документе значительно превосходят частоту термина по всему объему литературы, делается предположение что соответствующие термины являются ценными. Математически данное утверждение можно выразить следующим образом: wi = N

= tf *idfi=ifi. log—.

ni

Алгоритм «сигнал-шум». Еще одна группа параметров базируется на вычислениях соотношения «сигнал-шум», по аналогии с теорией переда-

Sk

чи информации Шеннона: wi =—^

Nk

или

Sk

* $ , где N - шум термина, рассчиты-

п /к р к

ваемый по формуле №к = Ъ'^гО—^ ; - сиг-

1=1 Р /1

нал термина, рассчитываемый по формуле Бк = ^Рк-Nk .

Алгоритм распределения частоты термина.

Еще один способ оценки значимости термина связан с величиной распределения частоты термина.

Обозначим /к среднюю частоту термина к в п документах, тогда несмещенная выборочная оценка среднеквадратичного уклонения (ук) опреде-

п _

2 -/к)2

ляется: (Ук) =—- . Подходящим парах ' п-1

метром оценки пригодности некоторого термина

i Надоели баннеры? Вы всегда можете отключить рекламу.