УДК 681.3
С. В. МШУХШ, С. В. ЗНАХУР
МЕТОДИ ШТЕЛЕКТУАЛЬНОГО ПОШУКУ 1НФОРМАЦП В GRID-МЕРЕЖ1
Розглядаегься шдх1д щодо класгеризаци ресурав вКЮ-мереж1 для розподшеного пошуку шформаци на основ1 викорисгання нейронно1 мереж1. Мехатзм пошуку базуегься на архггекгур1 LDAP га асоцше вузли ОИШ-мереж! з ввдповщними ресурсами га запигами за допомогою мереж Кохонена.
1. Вступ
Одшею з сучасних парадигм побудови глобальних комп'югерних мереж е парадигма GRID-сисгеми, де реал1зована щея викорисгання архггекгури розподшеного комп'югинга з колекгивною формою доступу до обчислювальних га шформацшних ресурс1в. Ключовою проблемою викорисгання шформацшних ресурс1в GRID е експоненщальний рюг шформаци га юнуюча гегерогеншсгь глобально1 мереж1 [1,2,7,8]. Сучасш шформацшш пошуков1 сисге-ми (1ПС) не дозволяюгь адеквагно га швидко обробиги запита корисгувач1в. Тому для пошуку ресурс1в у GRID-мережах пропонуегься здшсниги 1х мегаопис га визначиги, на яких серверах (вузлах - сховищах даних) вони будугь збер1гагися га оброблягися, гобго необхщно класгеризуваги шформацшш ресурси зпдно з агрибугами 1х мегаопису. Для ршення ще1 задач1 викорисговувалися сгагисгичш мегоди класгеризаци, яю вщносягь образ ресурсу до вщповщного класу (класгеру) ¡з множини вузл1в. Анал1з юнуючих 1ерархь чних i не1ерарх1чних мегод1в магемагично1 сгагисгики показав, що юнуюч1 не1ерарх1чш мегоди виявляюгь бшьш високу сгшюсгь по вщношенню до шум1в (викид1в), некорекгного вибору мегрики, включення незначних змшних для класгеризаци. Перевага 1ерарх1чних мегод1в - в наочносп побудови дерева класгер1в i можливосп огримання дегального уявлення про сгрукгуру даних. Осганшм часом ведугься акгивш розробки нових алго-ршмв класгеризаци, здагних обробляги надвелию бази даних. До гаких алгоршмв вщно-сягься: Birch, Cure, Clarans, DBScan [1,3]. Основним недолшом цих алгоршмв е ге, що вони вимагаюгь вибору деяких поропв щшьносп для спосгережень, що е суб'екгивною апрюр-ною шформащею, яка може буги недосгупною. Загальним недолшом сгагисгичних мегод1в е досгагньо висока часова загримка ршення задач класгеризаци для об'ем1в даних бшьш шж пенгабайг га необхщшсть апрюрно1 шформаци щодо харакгерисгик спосгережень або класгер1в. Дослщження показали, що нейронш мереж1 (НМ) з устхом можугь засгосовува-гися в р1зних галузях, особливо в задачах класифшаци га класгеризаци. Викорисговуючи вщповщний клас НМ, можна реал1зуваги ршення задач1 класгеризаци мегашформаци вщповщно до вузл1в мережг Таким чином, мегою робоги е побудова мехашзму пошуково1 машини GRID-мережi для ефекгивного пошуку шформацшних ресурс1в, який викорисговуе апараг шгучних НМ [4,5]. Задач1 дослщження гаю:
1) визначення загально! архггектури 1ПС для GRID-мережi на основГ використання протоколу LDAP;
2) кластеризащя меташформацп pecypciB за допомогою НМ Кохонена та асощащя !х з вузлами обробки (серверами);
3) визначення мехашзму розподшу запитiв вiдповiдно до вyзлiв оброблення (серверiв).
2. Сутшсть
Розглянемо мехашзм пошуку шформацп у Grid-системi [2, 6]. Як архггектура пошуково! системи для Grid-системи пропонуеться кластерна модель iз вбудованим механiзмом пошуку LDAP (рис.1). LDAP (англ. Lightweight Directory Access Protocol - «полегшений протокол доступу до каталопв») - це мережевий протокол для доступу до служби каталопв X.500. Сервю каталопв - це оснащений засобами пошуку репозиторш, в якому надшеш вщповщними повноваженнями користyвачi та служби можуть знаходити шформащю про ресурси, обчислювальнi вузли, мережевi пристро! i програми. На рис. 1 цифрами позначено порядок взаемодп компонентiв при надходженш даних до системи, а буквами - порядок дш при обробленш запиту користувача. Данi зберГгаються в файловiй системi сервера (сер-верiв), на якому розмiщено сховище даних. Iндексацiя даних виконуеться за допомогою спещального iндексатора, який повинен бути окремо розроблений для кожного типу даних. Його задача полягае в скануванш файлово! системи для пошуку нових файлiв з даними, видшенш з них меташформацп та генерацп XML-документа за встановленою схемою, що мiстить структуровану iнформацiю про новi данi.
KnacTepw3aqiq запиту на вузли пошуку
Вузли обробки запитв
1ндексн сервера
lндексauiя ресурсiв GRID-кластеру
Сервер GRID-ftp
1ндексатор даних
Фiзичн е зберiгaння даних
2
Рис. 1. Архггектура пошуково! системи для GRID-мереж!
У сучасних пошукових системах на основГ iндексyвання вихГднГ документи заносяться в базу даних без будь-якого додаткового перетворення, але при цьому смисловий змют кожного документа вщображаеться в деякий пошуковий проспр [1, 2]. Процес вщображен-ня документа в пошуковому просторГ називаеться шдексуванням та полягае в присвоенш кожному документу деякого Гндексу-координати в шформацшному просторГ. ФормалГзова-не представлення (опис) документа називаеться пошуковим шдексом документа. Користу-вачевГ досить сформувати пошуковий образ запиту для пошуку документа [1, 2].
Пошукова система на 0CH0Bi певних критерпв i cnoco6iB шукае документи, пошуковi образи яких (ПОД) вiдповiдають пошуковим образам запиту (ПОЗ) користувача, i видае релевантнi запиту документи. Загальна схема пошуку на основi ПОЗ наведена на рис. 2.
1ндексатор GRID рееструеться у iндексному сервга Globus Toolkit, який використовуеться для розробки та функцюнування пром1жного програмного забезпечення GRID, i перiодично ним виконуеться [6-8]. Даш, що генеруе шдексатор, надходять до загального дерева даних вдексного сервiсу ресурсу, i у випадку, коли цей ресурс не е вершиною iерархil шдексних сервiсiв, утворених за допомогою сервюу агрегацп, передаються вище за iерархiею.
В резульгаг головний шдексний сервю сисгеми завжди мае дегальну i акгуальну шформащю про даш, яю присугш в ус1х арх1вах, докуменгах GRID-сисгеми. У гому випадку, коли додагок корисгувача мае огримаги певш даш з1 сховища даних, вш викорис-говуе засоби пошуку по шдексному сервюу сисгеми i огримуе адресу URL файлу, що розгашований в певному арх1в1. Якщо корисгувачев1 вщомо, в якому арх1в1 знаходягься необхщш йому даш, вш може проводиги пошук не за головним шдексним сервюом, а за шдексним сервюом необхщного йому арх1ву, що сприяе бшьш р1вном1рному розподшу навангаження за ресурсами сисгеми. Опис ресурсу згщно з прогоколом LDAP дозволяе викорисговуваги агрибуги докуменга (зпдно з ¡ерарх1ею опису ресурсу).
Для тдвищення швидкосп пошуку в робог пропонуегься викорисговуваги мехашзм визначення сервер1в (вузл1в) пошуку на основ1 мегашформацп щодо ресурсу. Для цього необхщно виршиги гаю завдання:
1) класгеризащя ресурс1в на основ1 1х агрибута опису в LDAP (мегашформацп);
2) асощащя класгеризованих ресурс1в га вузл1в 1х оброблення;
3) асощащя агрибута запигу з вузлами оброблення;
4) визначення досгагньо1 юлькосп вузл1в оброблення для оброблення погоку запита.
В робог перш1 гри завдання пропонуегься виршиги на основ1 апарагу шгелекгуально1
обробки даних (нейронно1 мереж1).
Для завдання предсгавлення ресурсу у вигляд1 сисгеми знань вхщними даними е гексг, а резульгагом - сисгема знань у вигляд1 набору мегаданих. Класгеризащя мегаданих дозволяе класгеризуваги докуменг (ресурс).
Таким чином, шдексагори формуюгь мегаопис ресурсу GRID-мереж!, що мае перелш агрибута, найважлившим з яких е ключов1 слова й часгогна харакгерисгика ключових сл1в докуменга. Для подальшого розподшу мегашформацп щодо сервер1в БД необхщно здшсни-ги класгеризащю документа у режим1 реального часу. В резульгаг мегашформащя щодо ресурсу (докуменга) буде вщнесена до вщповщного сервера (сервер1в), що у подальшому дозволигь на них здшсниги й обробку запита на пошук докуменга: ключов1 слова запигу можливо асощюваги з гими класгерами (серверами), де збер1гаегься вщповщна мегашформащя щодо докуменга. Реал1зуваги посгавлене завдання пропонуегься за допомогою мереж1 Кохонена. Мережа Кохонена - мегод, розроблений для вщображення багаговим1р-них даних на двовим1рну площину. Ця мережа навчаегься без вчигеля: на вхщ посгупаюгь навчальш даш i вщбуваегься корекщя синапгичних ваг нейрошв вщповщно до нових спосге-режень. Швидюсгь навчання мереж1 залежигь вщ порядку надходження навчальних даних на вхщ мереж1 [3].
Ршення завдання
Для функцюнування штелектуального репозитарда меташформаци необхщш таю функщ-ональш модуш:
- модуль шдексацп документа;
- модуль кластеризацп документа.
На модуль шдексацп покладеш завдання передоброблення документа i побудова час-тотних словниюв термшв, що зустрГчаються. ДалГ, в рамках модуля кластеризацп i класиф-Гкацп, на основГ значень вщносних частот повинш створюватися наочно-орГентоваш класте-ри. В процес класифшацп виконуеться завдання зютавлення шформацшного ресурсу з певним кластером.
Для ощнки значущосп слГв в шдексаторГ використовуються методи визначення частот слГв кожного документа i частот, розрахованих за формулою Шенона (вщношення «сигнал-шум»)[1]:
де N^ - шум термшу,
тут f ^ - частота k-го термшу в i-му документ!; F^ частота k-го термшу по Bcix документах; - сигнал термшу.
.
Для кластеризацп застосовуеться нейронна мережа, що використовуе метод навчання без вчителя (unsupervised learning), - самооргашзуючГ карти Кохонена (Self-Organizing Map - SOM)[4].
Пропонуеться використовувати двГ основш процедури настройки нейронно! мереж шшга-лГзащя ваг нейрошв випадковим чином i самонавчання мережГ Кохонена (алгоритм SOM).
Алгоритм навчання мережi Кохонена
Крок 1. 1шщалГзащя параметрГв мережг
Крок 2. Цикл за числом ггерацш в мережг
Крок 2.1. Визначення вщстаней мГж вхщним вектором X i вектором ваг W кожного нейрона за формулою:
V '
Крок 2.2. Визначення нейрона-переможця з мiнiмальною вiдстанню. Крок 2.3. Визначення обласп активацп нейрона-переможця. Крок 2.4. Визначення ваг нейрошв усерединi обласп активацп за формулою [4]:
^ & + 1) = (0 - а[Х -
де а - крок навчання для мережi Кохонена. Крок 3. Запис документа в масив кластерiв.
Вихщний попк кластерiв представляеться у виглядi динамiчного двомiрного масиву. При попаданнi документа в кластер на перетиш «документ-кластер» в комiрцi ставиться одиниця. Навчання нейронно! мережi вщбуваеться на кожному документа Таким чином, меташформа-цiя щодо кожного документа буде збертатися у вiдповiдному кластерi (серверах).
Аналiз роботи мережi Кохонена показав, що вона здатна роздшяти спостереження лише за ступенем близькосн !х ознак. При цьому номер вузла, до якого вщнесено спостереження, та номер його класу, в загальному випадку, не збтаються, тобто мережа не надшяе кожен з вузлiв конкретним змютом. Результати експерименнв показали, що мережу доцшьно застосовувати тiльки для видшення центрiв кластерiв спостережень, а не для асощювання серверiв вщповщним кластерам [4].
Пюля кластеризацп меташформацп щодо pecypciB та асощацп И вiдповiдним вузлам GRID- мережi необхiдно вирiшити наступне завдання пошуково! системи - асоцiювати запити користyвачiв з вузлами, якi мютять вiдповiднy до запитiв метаiнформацiю. В робот навчену мережу Кохонена пропонусться використати для кластеризацп запитiв користу-вачiв згiдно з iснyючими кластерами (серверами) обробки БД меташформацп. Для цього запит користувача за допомогою процедури парсiнгy (parsing) [2] роздшяеться на окремi ключовi слова, яким необхщно дати вагу (аналог частотно! характеристики) [1]. Отриманий вектор атрибута подасться на вхiд мережi Кохонена для його асощювання з кластером (серверами обробки). Послщовнють рiшення задачi кластеризацii запитiв на отримання шформацшних ресyрсiв представлено за допомогою нотацп дiаграми IDEF0 (рис. 3), що дозволяе структуровано уявити механiзм асощацп запита до серверiв, якi збертають метаiнформацiю щодо кластеризованих ресyрсiв. На дiаграмi рис. 3 слiд видшити такi процеси: розмiщення iнформацiйного ресурсу (документа), шдексування документа i фор-мування БД пошуково! машини, тестування й експлуатащя пошуково! системи, попереднш статистичний аналiз резyльтатiв виконання запита, кластеризащя iнформацiйних ресyрсiв на основi статистично! обробки даних з використанням апарату штучного штелекту.
Документ
Атрибута
пошукового
образу
ресурсу,
параметри
LDAP
кл
Результат парсингу параметрiв запиту
астеризащ; на основi нейронно!' мережi О 5
► -у,у -у,у -у ,у .у/-.у
Пошукова машина
1
Кластери
Користувач
A0
Index
Рис. 3. Основш процеси оргашзацп штелектуального пошуку в GRID- мереж1
Сервер-диспетчер (сервер порталу рис. 1), отримавши запит вщ користувача, на основi кластеризацп його параметрiв асоцiативно зв'язуе запит з вузлами (серверами) GRID-мережг Мережа Кохонена дозволяе визначити декшька серверiв, якi мiстять близьку за складом меташформащю (але не тотожну). У випадку, коли сервери вшьш, запит можливо обробити на них одночасно. Сервери, яю видшеш в асоцшоваш таксономiчнi кластери, мютять близьку за змютом iнформацiю й вщповщають однаковим параметрам запиту користyвачiв. Тому для збiльшення швидкостi отримання результата пошуку дощльно органiзyвати запит до БД кожного з них.
Таким чином, досягаеться оптимiзацiя пошуку за рахунок одночасного використання декшькох серверiв та розподшьного зберiгання меташформацп щодо документа у кластерах.
3. Висновки
В статп описано модель пошуково! системи, яка дозволяе одночасно обробляти запити користyвачiв до ресуршв GRID-систем на асоцшованих вузлах GRID (серверах обробки
меташформацп). Ршення задачi розподiлу запитiв мiж вузлами (серверами) дозволяе сут-тево збiльшити ефективнiсть обробки запитiв за рахунок одночасного використання достат-ньо1 кiлькостi вiльних серверiв. Ефективнiсть визначаеться зменшенням часу обслугову-вання запиту вщповщно до варiанту централiзованоï його обробки. Запропонований в робой апарат штелектуального пошуку базуеться на виршенш задач кластерного аналiзу меташформацп щодо ресурсiв GRID, що дозволило класифшувати образ ресурсу до вщповщного вузла мережi. Вирiшення задачi кластеризацп здiйснюеться за допомогою штучноï нейрон-ноï мережi Кохонена, яка визначае у оперативному режимi приналежнiсть ресурсу до вщповщного класу (множини) вузлiв обчислювального кластера (GRID-мережi). Мережа Кохонена дозволяе виршувати й зворотне завдання - визначення вiдповiдних вузлiв кластера для оброблення запипв користувачiв, якi мiстять метаiнформацiю щодо необхщних ресурсiв для формування перелiку вщповщей щодо запитiв. Практичне значення дослщжен-ня полягае у можливостi побудови мехашзму пошуку iнформацiï, який дозволяе в результат кластеризацiï та асощаци запитiв у нейроннiй мережi отримати пщмножину вузлiв мережу де запити будуть оброблюватися одночасно. Подальшi дослщження можливо проводити у напрямку розробки алгоршмв для паралельного рiшення завдання кластеризацп на декшь-кох процесорах (вузлах) GRID-мережi в MPI.
Список лтратури: 1. Игумнов Е. Основные концепции и подходы при создании контекстно-поисковых систем на основе реляционных баз данных // http://www.citforum.ru/database/articles/search_sys. shtml. 2. Пономаренко В. С. Методы и модели планирования ресурсов в Grid-системах / В.С. Понома-ренко, С.В. Листровой, С.В. Минухин, С.В. Знахур: Монография. Х.: ВД «1НЖЕК», 2008. 408 с. 3. Уиллиамс У. Т., Ланс Д. Н. Методы иерархической классификации // Статистические методы для ЭВМ / Под ред. М. Б. Малютов. М.: Наука, 1986. С. 269-301. 4. Круглое В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия -Телеком, 2002. 382 с. 5. Барсегян А.А., Куприянов М.С,. СтепаненкоВ.В,ХолодИ.И. Методы и модели анализа данных: OLAP и Data Mining. Спб.: БХВ-Петербург, 2004. 336с. 6. Валиев М.К, Китаев Е.Л., Слепенков М.И. Использование службы директорий LDAP для представления метаинформации в глобальных вычислительных системах (Using LDAP directory service for representation of metainformation in global computing systems): http:// www.keldysh.ru/metacomputing/ism99.html. 7. Globus Toolkit: http://www.globus.org. 8. http:// www.gridclub.ru/activity/kiam/documents.html.
Надшшла до редколегИ' 12.04.2009 Мшухш Сергш Володимирович, канд. техн. наук, доцент кафедри шформацшних систем ХНЕУ. Науковi интереси: штелектуальна обробка шформаци. Адреса: Украша, 61145, Харюв, вул. Новгородська, 6-а, кв. 77, тел. 702-18-31, e-mail: [email protected].
Знахур Сергш Вжторович, канд. економ. наук, доцент кафедри шформацшних систем ХНЕУ. Науковi штереси: телектуальна обробка шформацп. Адреса: Украша, Харшв, пр. 50 ^ччя ВЛКСМ, 32/186, тел. 702-18-31, e-mail: [email protected].