Научная статья на тему 'Предобработка и индексирование документов электронной библиотеки'

Предобработка и индексирование документов электронной библиотеки Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
158
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предобработка и индексирование документов электронной библиотеки»

Известия ТРТУ

Специальный выпуск

мов, более устойчивых к ошибкам. К таким алгоритмам относятся последовательные алгоритмы. Наиболее простой из них в реализации и более быстродействующий - алгоритм Фано обладает высокой исправляющей спо-.

реализации показали его значительное превосходство по исправляющей способности над алгоритмами Рида-Соломона и Виттерби. С появлением быстродействующих вычислительных устройств стала возможна приемлемая реализация алгоритма Фано. Реально работающий декодер Фано, созданный в УНЦ СИБ ТРТУ, показал хорошие результаты по исправляющей способности для скоростей кода 1/2, 3/4 и 7/8. На скоростях потока 2, 2 и 1,7 Мбод и ошибках на входе 10-2, 410-3 и 10-3 для перечисленных скоростей ,

ошибок, с вероятностью ошибки на выходе меньшей 10-7.

УДК 681.3.062:023

А.А. Трегубов, О.Ю. Пескова

ПРЕДОБРАБОТКА И ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ ЭЛЕКТРОННОЙ

БИБЛИОТЕКИ

Большинство существующих классических информационно-поисковых систем (ИПС) используют механизм автоматического сжатия (индексации) текста документов. Проблемой индексации является автоматическое выделение слов и выражений, специфичных для определенных пред. ,

, -нию степени (частоты) присутствия терминов в документе, места присутствия (находится в заголовке, подзаголовке, начале документа), характеризующих их специфичность.

Для ключевых слов при индексировании, а также при обработке терминов запросов пользователей необходимо их привести к специальной,

( ). -( ), -( ).

В русском языке смысловая информация распределена в словах дискретными «сгустками»: наиболее информационно нагруженными являются

( ), -( , ), -риантов приведения слов к специальному виду является отсечение конеч-, : . -димо ввести массив парадигм склонения русских слов, который будет содержать всевозможные падежные окончания слов, как в единственном, так и во множественном числе. Аналогичным образом можно создать массив (базу данных) суффиксов слов, к которому можно будет обращаться после обработки окончаний слов для выделения и последующего удаления суф-.

Проект поддержан грантом РФФИ №00-07-90252.

i Надоели баннеры? Вы всегда можете отключить рекламу.