Научная статья на тему 'Метапо исковая мультилингвистическая система'

Метапо исковая мультилингвистическая система Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
217
46
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасева Маргарита Владимировна, Карцан Игорь Николаевич, Зеленков Павел Викторович

Рассматриваются метапоисковые принципы организации поисковых процедур, обеспечивающих надлежащий уровень релевантности информации и ранжирования ее в соответствии с запросом пользователя. Представлена реализация метапоисковой мультилингвистической системы «Zendex».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карасева Маргарита Владимировна, Карцан Игорь Николаевич, Зеленков Павел Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Meta-search multi-linguistic system

Meta-search principles of information retrieval processes are considered. These principles are applied to the of information for the user inquiry. The realization of meta-search multi-linguistic system «Zendex» is presented.

Текст научной работы на тему «Метапо исковая мультилингвистическая система»

ритм оценки и формирования внутренней среды, способствующей распространению знаний ключевых сотрудников в организации, позволяющий более эффективно использовать человеческий капитал предприятия.

Библиографический список

1. Гончарук, В. А. Развитие предприятия / В.А. Гончарук. М. : Дело, 2000. 208 с.

2. Голубков, Е. П. Маркетинговые исследования: теория, методология и практика / Е.П. Голубков.М. : Изд-во «Финпресс», 2004. 446 с.

3. Хайниш, С. В. Российское предприятие ВПК: выжить и развиваться (на примере реформирования и развития Химзавода - филиала ФГУП «КРАСМАШ») / С. В. Хайниш, В. М. Клешков, А. Н. Бородин. М. : Рохос, 2003. 240 с.

O. L. Yakischik, V. M. Kleshkov, O. E. Semenkina

USE OF ALGORITHM OF KNOWLEDGE SPREADING INTERNAL ENVIRONMENT FORMING AND EVALUATION ON MACHINE-BUILDING ENTERPRISE

It is considered the algorithm offorming and evaluation of internal environment for spreading knowledge on machine-building enterprise. Knowledge spreading environment is nowadays one of basic needs for this branch of industry. This algorithm includes 3 steps of evaluation and lets enterprise to create conditions for human capital effective adoption.

УДК 004.738.52

М. В. Карасева, И. Н. Карцан, П. В. Зеленков МЕТАПОИСКОВАЯ МУЛЬТИЛИНГВИСТИЧЕСКАЯ СИСТЕМА

Рассматриваются метапоисковые принципы организации поисковых процедур, обеспечивающих надлежащий уровень релевантности информации и ранжирования ее в соответствии с запросом пользователя. Представлена реализация метапоисковой мультилингвистической системы «Zendex».

В настоящее время классические поисковые сервисы сталкиваются с проблемой постоянного увеличения объемов информации в сети Internet и недостаточностью охвата данного информационного пространства [1]. Также большинство современных систем поиска сталкиваются с проблемой определения уровня релевантности найденной информации. Самых высоких показателей в этом направлении позволяет достичь «ручной» просмотр содержания страницы или сайта человеком, что можно увидеть на примере поисковых систем-каталогов. Третья проблема связана с организацией выдачи информации пользователю с учетом его требования (ранжирование информации).

Таким образом, при создании собственных поисковых систем перед разработчиками встают следующие задачи: охват максимального сегмента сети Internet, обеспечение надлежащего уровня релевантности найденной информации и ранжирования ее в соответствии с запросом пользователя. Авторы предлагают использовать ме-тапоискавые принципы организации поисковой процедуры [2]. В качестве иллюстрации авторского подхода рассматривается метапоисковая мультилингвистическая система «Zendex».

Для начала работы необходимо выбрать одну из поисковых систем (по предпочтению пользователя). На текущий момент времени в «Zendex» реализована работа с тремя подобными системами: Yandex, Rambler и Google.

Однако система позволяет расширить количество опрашиваемых поисковых сервисов. Система обеспечивает использование как одного, двух, так и сразу всех поисковых сайтов. Для выбора операции поиска сразу во всех поисковых сайтах необходимо перейти на закладку «Везде». В этом случае будут последовательно опрашиваться все поисковые web-службы, а результат будет выводиться в привычном постраничном формате. Чтобы приступить к поиску, нужно ввести строку запроса в поле поиска и нажать клавишу «Enter» или кнопку «Найти».

Если по запросу информация будет найдена, то она отобразится в окне. Если в процессе поиска произойдет ошибка, будет выведено соответствующее сообщение на странице ошибок с указанием номера, типа и причины ошибки. Если же ни одного документа найдено не было, появится соответствующее сообщение. Несмотря на то, что система имеет простой интерфейс, предусмотрена расширенная алгоритмическая реализация по сравнению с классическими метапоисковыми сервисами.

В предлагаемой авторами технологии основой работы системы являются мультилингвистические тематические частотные словари [3]. Данные словари позволяют повысить качество определения релевантности документов запросам пользователя. Словари позволяют выделить направленность документа, вплоть до определения рубрики (предметной области), к которой принадлежит документ. Качество определения уровня релевантности в

предлагаемом решении соответствует уровню релевантности в каталожных системах ручной индексации.

В результате выполнения поисковой процедуры согласно алгоритму определения релевантности формируются вектора частот, определяющийся по формулам: docj = (wdocy ,wdoc2j ,...,wdocCj),

dwi = (wdici,wdic2,...,wdick), где вектор docj относится к терминам из документа, а dic. - к терминам из частотного мультилингвитического словаря; wdic.. и wdoc. - частотные характеристики термов в словаре и документе соответственно.

Далее вектора приводятся к одной размерности по принципу встречаемости термов в обоих векторах. После приведения векторов к одной размерности е и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор c:

^ = (rellj,rel2j,...,relej), где rel. - уровень релевантности документа, который можно определить следующим образом:

rel14

wdoc у + wdi c

После упорядочивания вектора с получим уровень релевантности каждого документа требуемой предметной области. Таким образом, могут быть реализованы упрощенные алгоритмы определения уровня релевантности. При выводе документов пользователя необходимо провести сортировку по вектору с.

К достоинствам системы можно отнести следующие моменты.

Использование частотного словаря позволяет производить поиск сразу на нескольких языках, например русском, английском и немецком.

Реализация метопоисковых принципов позволяет охватывать индексы трех самых популярных поисковых web-служб - Яндекс, Google, Rambler.

Реализация независимой от внешнего web-сервера проверки релевантности позволяет сократить объем нерелевантных ссылок в результатах поиска и существенно повысить качество обработки запросов пользователя.

Применение алгоритмов, базирующихся на частотных словарях, позволяет повысить степень релевантности документов запросу пользователя, а также уменьшить объем трафика пользователя при формировании собственной базы релевантных документов.

Библиографический список

1. Талантов, М. Поиск в Интернете: подводные камни / М. Талантов // КомпьютерПресс. 1999. № 9. С. 46-52.

2. Зеленков, П. В. Проблема развития метапоисковых технологий / П. В. Зеленков, Т. А. Ковалева // Вестник НИИ СУВПТ : сб. науч. тр. ; под общ. ред. проф. Н. В. Василенко. Красноярск : НИИ СУВПТ. 2004. Вып. 14. С. 95-103.

3. Ковалев, И. В. Автоматизация формирования информационно-терминологического базиса мультилинг-вистических обучающих технологий / И. В. Ковалев, П. В. Зеленков // Телекоммуникации и информатизация образования. 2005. N° 3 (28). С. 68-82.

M. V. Karasev, I. N. Kartsan, P. V. Selenkov

META-SEARCH MULTI-LINGUISTIC SYSTEM

Meta-search principles of information retrieval processes are considered. These principles are applied to the ranking of information for the user inquiry. The realization of meta-search multi-linguistic system «Zendex» is presented.

УДК 004.05

И. Н. Карцан, Д. В. Кустов, С. А. Яркова

АКТИВНАЯ МОДЕЛЬ МУЛЬТИЯЗЫЧНЫХ ЗАПРОСОВ ПОЛЬЗОВАТЕЛЯ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ

Предлагается подход к использованию активной модели пользователя в информационно-управляющих системах, что позволяет еще на этапе их проектирования обеспечить персонализацию мультилингвистических поисковых систем.

На сегодняшний день наиболее перспективным видом информационных систем (ИС) являются информа-ционно-управляющие системы (ИУС) в мультинациональных корпорациях. Это объясняется, в первую очередь, характерной тенденцией интеграции ранее разрозненных (например, по принципу физического места расположения подразделения) информационных источни-

ков корпорации в единую информационную базу. Упомянутые информационные системы, наряду с другими, обладают такими характерными свойствами, как центра-лизованность (в плане сосредоточения базы знаний ИС) и многоязычность документов, хранящихся в такой ИС. При этом для современных информационно-управляю-щих систем характерен значительный прирост объемов

i Надоели баннеры? Вы всегда можете отключить рекламу.