Научная статья на тему 'Визначення та оптимізація тематики сайту на основі пошукових запитів'

Визначення та оптимізація тематики сайту на основі пошукових запитів Текст научной статьи по специальности «Экономика и бизнес»

CC BY
321
62
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Голощук Роман Олегович, Пелещишин Андрій Миколайович

Розглядаються проблеми визначення та оптимізації тематики Веб-сайту з огляду на його популярність та інші критерії ефективності. Пропонується підхід до вирішення проблеми, що базується на запитах до пошукових машин.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Web site topics determination and optimization based on search queries

The problem of a Web site design with strictly and efficiently determined topics is researched in the paper. Users‘ queries to search engines are choused as the site topics carrier. Based on this research authors propose the formal approaches to optimal site topics determination. The example illustrate the efficiency of proposed approaches

Текст научной работы на тему «Визначення та оптимізація тематики сайту на основі пошукових запитів»

3. Вперше доведено теорему про збіжність побудованого методу G-проекції.

Література: 1. Стоян Ю.Г., Путятин В.П. Размещение источников физических полей. Киев: Наук. думка, 1981. 186с. 2. Жовновський Д.О., Рудюк Л.В., Саваневіч

К.Є., Яремчук С.І. Оптимізація розміщення джерел фізичного поля модифікованим методом Розена // Вісн. Житомир. інж.-технол. ін-ту. Технічні науки. 2000. № 13. С. 188-191. 3. Svetlana I. Yaremchuk, Lidia V. Ruduyk. Practical solution of the problem of rectangular physical field sources arrangement in rectangle // Proceedings of the Fifth international scientific conference “electronic, Computers and Informatics” 2002, October 10-11, 2002 Kosice—Herl’any, Slovakia. P.93-97. 4. Rosen J.B. The gradient projection method for nonlinear programming // Part I, Linear Constraints, SIAM J. Applied Mathematics 8. 1960. P. 181-217. 5. Rosen J.B. The

УДК 681.3

ВИЗНАЧЕННЯ ТА ОПТИМІЗАЦІЯ ТЕМАТИКИ САЙТУ НА ОСНОВІ ПОШУКОВИХ ЗАПИТІВ

ТОЛОЩУКР.О, ПЕЛЕЩИШИНА.М._________________

Розглядаються проблеми визначення та оптимізації тематики Веб-сайту з огляду на його популярність та інші критерії ефективності. Пропонується підхід до вирішення проблеми, що базується на запитах до пошукових машин.

1. Постановка проблеми та її актуальність

Актуальність дослідження. Проблема визначення тематики інформаційних ресурсів World Wide Web є задачею, актуальність якої обумовлена рядом факторів, серед яких найважливішими є:

— величезні обсяги інформації у WWW та високі темпи її приросту;

— високий користувацький попит на сервіси пошуку, класифікації та аналізу інформаційних ресурсів WWW;

— потреба власників сайтів у точному відображенні тематики сайту в сервіси пошуку, класифікації та аналізу інформаційних ресурсів WWW.

Існуючий стан досліджень. Задача визначення тематики інформаційних ресурсів (у першу чергу сайтів та їхніх сторінок) неодноразово розглядалася як з теоретичної точки зору, так і зі спробами реального впровадження. Проте дослідження у даній сфері носять односторонній характер — це автоматизоване (частково чи повністю) визначення тематики сайту для використання у подальшому в алгоритмах пошуку інформації в WWW та її аналізу. Таким чином, основні дослідження у даній сфері проводяться дослідницькими групами, що працюють над створенням чи вдосконаленням глобальних інформаційних сервісів — пошукових систем, каталогів, систем Інтернет-реклами, порталів [1,6].

Метою дослідження є побудова формальних методів моделювання тематики сайту на основі запитів до пошукових систем та побудова загальних

РИ, 2005, № 2

gradient projection method for nonlinear programming. / / Part II, Linear Constraints, SIAM J. Applied Mathematics. 1961. 9. P. 514-553. 6. Васильев Ф.П. Численные методы решения экстремальных задач // М.: Наука, 1980. 518с.

Надійшла до редколегії 17.12.2004

Рецензент: д-р техн. наук, проф. Панішев А.В.

Яремчук Світлана Іванівна, канд. фіз.-мат. наук, доцент кафедри ПЗОТ Житомирського державного технологічного університету. Наукові інтереси: екстремальні задачі, математичне моделювання. Адреса: Україна, Житомир, вул. Черняхівського, 103, тел. (0412)418-542.

Рудюк Лідія Василівна, аспірантка кафедри ПЗОТ Житомирського державного технологічного університету. Наукові інтереси: методи оптимізації, комп’ютерне моделювання. Адреса: Україна, Житомир, вул. Черняхівського, 103, тел. (0412)418-542.

підходів до оптимізації визначеної таким чином тематики сайту згідно з інтересами власників сайту.

Задачі дослідження:

— побудувати формальні методи моделювання тематики сайту на основі пошукових запитів;

— побудувати підходи до оптимізації тематики сайтів;

— апробувати отримані наукові результати на конкретному прикладі.

2. Аналіз досліджень

WWW на відміну від традиційних текстових колекцій є активним середовищем, яке складається з мільйонів сайтів, кожен з яких має окремого власника і, відповідно, власні цілі, які не завжди збігаються з цілями вказаних глобальних проектів. Це суттєво обмежує можливості автоматизованого визначення тематики сайтів. Як наслідок, результати, що отримуються автоматизованими сервісами, не є повноцінним описом тематики сайту. Не випадково гаслом найбільшого каталогу сайтів ODP (Open Directory Project ) є “Humans do it better” (“люди роблять це краще”) [2].

Значна кількість досліджень, причетних до задачі визначення тематики сайту, проводиться фахівцями з Інтернет-реклами, просування сайту в Інтер-нет, оптимізації сайтів під пошукові машини. Проте дані дослідження носять лише практичний характер і часто навіть розглядаються (в першу чергу власниками глобальних сервісів) як ворожі чи шкідливі для глобального середовища.

Очевидно, що розв’язання складних задач по опрацюванню інформаційних ресурсів WWW є можливим лише за умови врахування інтересів як звичайних користувачів та глобальних сервісів (які беруть на себе місію по представленню інтересів користувачів), так і власників сайтів, які власне і формують WWW. Як наслідок, у спільноти WWW виникає певне розуміння щодо спільних цілей, які ставляться перед надавачами та користувачами різних послуг. З’являється чітке розмежування двох альтернативних підходів до популяризації сайтів їхніми власниками серед користувачів WWW:

73

— технології спаму (“чорна оптимізація”) — спам пошукових машин і каталогів, спам інтерактивних сервісів, заплутування та скерування навігації користувача, поштовий спам, дезінформація користувачів;

— технології оптимізації тематики сайту (“біла оптимізація”) — вибір оптимальної тематики сайту, вдосконалення її відображення, дотримання правил Інтернет-спільноти.

Даний поділ відображається в появі організацій, що забезпечують єдині “правила гри” для глобальних сервісів навігації (пошукових машин, каталогів, систем Інтренет-реклами) та звичайних сайтів, у проведенні спільних конференцій та нарад між фахівцями по “білій оптимізації” та представниками глобальних сервісів [3], складанні спеціальних “кодексів білої оптимізації” [4,5], організації служб виявлення фактів “чорної оптимізації”.

3. Виділення невирішених раніше частин загальної проблеми

У даній роботі розглядається проблема подання та оптимізації тематики сайту з точки зору власника сайту. Ця проблема для власника сайту є критично важливою і від успішності її вирішення в значній (а подеколи і в вирішальній) мірі залежить успішність Веб-проекту.

Проте розв’язання даної задачі для власників сайтів повинне здійснюватися з врахуванням усталених норм глобального середовища та існуючих у ньому правил та обмежень (“біла оптимізація”). За точку відліку при розв’язанні задачі повинні виступати існуючі в WWW методи визначення тематики сайту користувачами сайту та глобальними сервісами, що забезпечують навігацію користувачів по WWW. Сама задача для власника сайту формулюється як побудова сайту, який правильно, точно та ефективно відображає вибрану оптимальну тематику для досягнення поставлених перед сайтом цілей в умовах існуючого глобального середовища.

Розглянемо детальніше сформульовану задачу. Основними тезами в цьому формулюванні є:

— сайти можуть неправильно чи неточно відображати тематику, що є бажаною;

— відображення тематики сайту може здійснюватися неефективно (особливо з врахуванням активного конкурентного середовища WWW);

— вибрана тематика сайту може бути неоптимальною для досягнення цілей, що були поставлені перед сайтом, вона може потребувати уточнення чи модифікації;

— визначення тематики повинне здійснюватися в умовах реально функціонуючого глобального середовища, з визначеними “правилами гри” та високою інертністю, що виключає реальну можливість появи та впровадження власниками принципово нових методів і служб визначення тематики сайту.

4. Формулювання цілей дослідження

Питання побудови класифікаторів сайтів, інших методів визначення їх тематики неодноразово розв’язувалося на практиці власниками та розробниками різноманітних сервісів у системі WWW. Зокрема, вкрай важливим це питання є для каталогів сайтів, пошукових машин, порталів, систем контекстної реклами, банерних мереж, систем збору статистики тощо.

Крім того, дане питання є актуальним для розроб -ників спеціалізованого програмного забезпечення для спрощення навігації користувача по системі World Wide Web. Хоча слід відмітити, що останнім часом дане програмне забезпечення в основному є інформаційним клієнтом сервісів вказаних вище типів [8].

Відмітимо, що важливим елементом визначення тематики сайту є аналіз аудиторії сайту (як реально існуючої, так і бажаної для власників сайту). Такий підхід усе частіше знаходить місце у побудові нових алгоритмів глобальної обробки інформації (наприклад алгоритм PageRank рангування сайтів базується на сильно спрощеній моделі поведінки користувача World Wide Web).

5. Визначення тематики сайту на основі ключових фраз та пошукових запитів

Ключові слова є традиційним методом визначення тематики текстової інформації як в електронному середовищі, так і в звичайних публікаціях (зокрема наукових). Відповідно і в мережі Інтернет даний метод зберігає свою актуальність в дещо модифікованому вигляді.

Найважливішим методом визначення тематики сайту на основі навігаційного підходу є використання пошукових запитів. Це викликано тим, що домінуючим на сьогодні методом навігації користувача по системі World Wide Web є переходи на сайти з результатів пошуку інформації пошуковими машинами. По своїй суті пошукові запити являють собою набори ключових слів з можливими додатковими обмеженнями.

Крім пошуку інформації в пошукових машинах, ключові слова використовуються і в інших схожих сервісах, які обслуговують навігацію користувача по WWW, зокрема у популярних на сьогодні системах контекстної реклами.

Ключові слова, які визначають тематику сайту, є запитами, що можуть формуватися до пошукових машин і яким сторінки сайту є високорелевантни-ми.

Традиційно тематику сайту за допомогою ключових слів та пошукових запитів задають таким чином: для кожної сторінки сайту визначається множина слів, які характеризують її тематику.

Даний підхід часто використовується на практиці при розв’язанні задач інтернет-реклами, просування сайту в пошукових системах, популяризації його в Інтернет.

74

РИ, 2005, № 2

Проте такий підхід є обмеженим та не може бути ефективно використаним при побудові формальних процедур проектування й оптимізації сайту та його взаємодії з глобальним середовищем.

Опис тематики сайту за допомогою ключових слів повинен враховувати наявність ключових слів та запитів, що в різній мірі відображають тематику сайту.

Відмітимо, що традиційно для WWW ключовим словом може вважатися і одне слово природної мови, і ціле словосполучення з кількох слів. Для усунення потенційних термінологічних колізій вважатимемо ключовим словом одне слово або логічно нерозривне коротке словосполучення, а ключовою фразою — визначену сукупність ключових слів з можливими додатковими визначеннями (порядок, вага слова і т.п.). Ключова фраза може складатися і з одного ключового слова.

Саме ключові фрази і є носієм тематики сайту в моделі навігації користувача за допомогою пошукових машин та систем контекстної реклами.

При формуванні методів опису тематики сайту ключовими фразами важливо враховувати методи опису тематики сайту через його аудиторію. У такому разі модель тематики сайту, що базується на ключових фразах, близька до моделі тематики сайту, що базується на аудиторії сайту.

Кожна ключова фраза відповідає певній групі користувачів сайту. Відповідно, для кожної ключової фрази визначається ряд спеціальних величин, які відповідають аналогічним показникам груп користувачів сайту.

Для кожного пошукового запиту визначимо міру корисності, що відображає математичне сподівання міри досягнення власниками певної цілі щодо відвідувача, який потрапив на сайт по даному ключовому слову:

Uf(Kwі) = N£ Pr(Uf)(U(Qsi),Tr;)Uf(Tr(Uf)) j=1 J ,

де Uf(Qsi) — корисність i-го пошукового запиту

для сайту; Uf (Tr(Uf) — корисність j -ї цілі сайту; j

U(Qsi) — множина користувачів, що потрапила на сайт по запиту Qsi ; Pr(Uf)(U(Qsi),Trj) -імовірність досягнення j-ї цілі сайту щодо користувача сайту, який потрапив на нього по запиту Qsi .

It(Kwi)

NT

S Pr(It) (U(Qs і ), Tr;) Uf (Tr(It)) j=1 j ,

де Uf(Qsi) — корисність i-го пошукового запиту

для сайту; It(Tr

(It))

корисність j-ї цілі сайту;

j

U(Qsi) — множина користувачів, що потрапила на

сайт по запиту Qsi; Pr(Uf)(U(Qsi),Tr;) — імовірність досягнення користувачем сайту, що потрапив на нього по запиту Qsi j-ї цілі щодо сайту.

Даний показник відповідає показнику зацікавленості групи користувачів сайту.

Кожне ключове слово доцільно розглядати у сукупності зі словами-синонімами, суміжними словами, перекладами різними мовами та різними методами запису даного слова.

Ключові фрази є простим та ефективним засобом визначення тематики сайту. Проте і даний підхід не позбавлений недоліків. Головною проблемою, що постає при визначенні тематики сайту через ключові фрази, є те, що ключові фрази фактично характеризують кожну окрему сторінку сайту зокрема, а не увесь сайт у цілому.

Це породжує невірне визначення тематики сайту (враховуючи, що визначальним показником тематики сайту є тематична зацікавленість аудиторії), зокрема користувачі можуть потрапляти на сайт за пошуковими запитами, що слабо відповідають справжній тематиці сайту.

Таким чином, тематика сайту за допомогою ключових фраз будується як просте об’єднання тематик окремих атомарних сторінок сайту.

Крім того, при визначенні тематики сайту за допомогою ключових слів мають місце такі обмеження:

— опис тематики сайту носить “плоский” характер, не відображається ієрархія тематик (наприклад сайт, що релевантний запиту “Ukrainian art”, може не бути релевантним запиту “art” чи запиту “Ukrainian”, або сайт, що релевантний запиту “sculpture”, може не бути релевантним запиту “art”);

— визначення тематики сайту залежить не лише від наповнення самого сайту, а й від наповнення інших сайтів;

Даний показник відповідає показнику корисності групи користувачів сайту, де групування відбувається за навігаційною ознакою — ключова фраза, яка привела на сайт користувача.

Аналогічно для окремого пошукового запиту визначимо міру відповідності, що відображає математичне сподівання міри досягнення користувачами певної цілі щодо сайту, на який він потрапив по даній ключовій фразі:

— практично не враховується нетекстова (візуальна, мультимедійна) складова сайту;

— слова-синоніми та близькі за значенням слова можуть не описувати тематику сайту.

Окремим випадком опису тематики на основі запитів є використання розширених запитів. При цьому також використовується модель навігації користувача з пошукової системи, проте сама навігація відбувається з результатів пошуку по склад-

РИ, 2005, № 2

75

ному запиту, а не просто по заданих ключових словах.

Опрацювання розширених запитів є частиною функціональних можливостей сучасних пошукових машин. Зокрема, можна виділити такі класи розширених запитів:

— на точне збігання фрази;

— на виключення слів зі сторінки;

— запити з логікою AND;

і-ї пошукової фрази для сайту; Fr(Qs(j)) — частота використання i-ї пошукової фрази користувачами WWW;

NQs.

Uf(Qs(j)) = £ Fr(Qs(j)) Uf(Qs(j)) Pr(Jump) (Qs(j)) i=1

де Pr(Jump) (Qs(j)) — імовірність переходу на сайт користувача, що звернувся до і-ї теми.

— на сторінки певною мовою;

— на сторінки з певного домену;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— з урахуванням дати оновлення сторінок;

— на пошук “сторінок, що посилаються на задану”;

— надглибокий пошук.

Величина Pr(Jump)(Qs(j)) залежить від характеристик глобального конкурентного середовища, у якому функціонує сайт. Користувач може потрапити не на конкретний сайт, а на сайт конкурентів по даній темі. Ця величина може бути визначена так:

Результати пошуку по розширених запитах відрізняються від результатів пошуку по простих. 1, як наслідок, такі запити також можуть використовуватися для визначення тематики сторінки. Незважаючи на те, що згідно з даними власників пошукових систем та адміністраторів сайтів розширені запити складають лише незначну частку загальної множини запитів, таке визначення є доцільним.

Запити такого типу характерні лише для висококваліфікованих користувачів, які проводять складний пошук інформації, та для Веб-майстрів, що розв’язують спеціальні задачі моніторингу WWW. Проте деякі з перелічених вище форм уточнення запитів (усі, крім трьох останніх) використовуються при визначенні правил контекстної реклами сайтів, яка є популярним видом організації навігації користувача по WWW. При цьому також використовується пряме визначення деяких параметрів аудиторії сайту (у першу чергу географічний регіон).

Ще одною допоміжною формою визначення тематики сайту, що базується на ключових словах, є визначення ключових фраз, по яких є небажаною навігація відвідувача на сайт.Дані ключові фрази можуть використовуватися, як було сказано вище, в налаштуваннях служб контекстної реклами, в спеціальних технічних засобах фільтрації вхідного потоку користувачів і не повинні по можливості використовуватися в текстовому наповненні сайту та текстах посилань на нього.

6. Оптимізація пошукових запитів

Оптимізація тематики сайту, що визначається пошуковими запитами (SEO — Search Engine Optimization), є одним з найважливіших етапів оптимізації тематики сайту (рис. 1).

N(Alt)

Нехай: Qs(Alt) = {Qs(j)} j_Qs — множина альтер-

нативних комплектів пошукових запитів, що ідентифікують тематику сайту; Qsu; = {Qs^ }_1J — тематика сайту - множина пошукових запитів, що описують тематику сайту; Uf(Qs(j)) — корисність

76

Pr(Jump) (Qs(j)) = Pr(Jump) (Pos(Site, Qsi)) Pos(Site, Qsi)

тут Pos(Site, Qsi) — позиція, яку обіймає сайт по запиту Qs, у результатах пошукових машин;

Pr (Jump) (Pos) — імовірність переходу користувача

по посиланню, що обіймає позицію Pos у результатах роботи пошукових машин.

Функція розподілу густоти імовірності

Pr(Jump) (Pos)

є достатньо складною та залежить від багатьох факторів (зокрема від якості пошуку та якості автоматизованого формування анотацій). Реальний вигляд цієї функції на сьогодні власниками пошукових машин не розголошується. Проте є ряд загальних правил, яким підпорядковується поведінка даної функції:

— функція швидко спадає — значна частка переходів здійснюється з перших трьох результатів пошуку, більшість переходів робиться з першої сторінки результатів пошуку;

— функція має “східчастий” характер — кожна сходинка відповідає наступній сторінці результатів пошуку;

— “сходинки” після 3-ї є несуттєвими — імовірність заходу користувача пошукової системи на сторінки з результатами після 3-ї є вкрай низькою і може не розглядатися взагалі.

Рис. 1. Орієнтовний розподіл імовірності переходу з позиції результатів пошуку

РИ, 2005, № 2

У такому разі задача оптимізації тематики сайту визначається таким чином:

Uf(Qs(j)) —^ Max,

де a = (Qs(j) є Qs(Alt)).

Множина можливих наборів пошукових фраз обмежується сучасними алгоритмами визначення релевантності сторінки запиту. Одна й та ж сторінка не може бути одночасно високорелевантна багатьом пошуковим фразам з абсолютно різними ключовими словами. Проте сторінка може бути релевантна різним фразам, що складаються з одних ключових слів. У такому разі до одного набору пошукових фраз можна відносити комплекти різних комбінацій ключових слів, яким є релевантна сторінка.

Детальніший аналіз наборів можливих фраз вимагає оцінки позиціонування сайту в глобальному середовищі та детальнішої класифікації запитів користувачів.

При визначенні можливих наборів пошукових запитів необхідно врахувати той факт, що не для всіх бажаних пошукових запитів може бути досягнута позиція в результатах роботи пошукових систем (це викликано можливою високою конкуренцією по даних запитах). Зрозуміло, що такі пошукові запити повинні або просто усуватися з набору, або модифікуватися (зокрема уточнюватися) в запити, по яких немає такої високої конкуренції.

Визначення конкурентоздатності сайту по певному пошуковому запиту є складною задачею, яка в принципі не може бути повністю розв’язаною. Проте на практиці достатньо ефективним методом розв’язання цієї задачі є визначення глобальних характеристик сайтів та сторінок, які є в результатах роботи пошукових машин по певному пошуковому запиту. Це в першу чергу такі характеристики:

— кількість авторитетних посилань на сторінки, що оцінюються;

— показники класу PageRank для сторінки та сайту;

— відвідуваність сайту та конкретної сторінки;

— відсутність некоректних технологій відображення тематики (“пошукового спаму”).

Після визначення таких показників конкурентів адміністрація сайту повинна реально оцінити свої можливості по досягненню та перевищенню такого рівня глобальних показників. У випадку, коли такий рівень показників є реально не досяжним, дана фраза не повинна включатися в комплект.

Крім аналізу глобального середовища, для визначення наборів пошукових фраз доцільно здійснювати їхню певну детальнішу класифікацію.

Можна виділити такі види класифікації запитів, що доцільно здійснювати для розв’язання даної задачі:

— призначення пошукових запитів;

— їх довжина.

За призначенням пошукові запити класифікуються як:

— навігаційні;

— інформаційні.

Навігаційні — запити для знаходження сайтів певної тематики. Як правило, дані запити є короткими та використовують ключові слова, що є достатньо загальними поняттями. Пошукова система дає у відповідь на такі запити чільні сторінки сайтів на дану тематику. Навігаційні запити складають основну множину запитів, по яких є висока конкуренція в глобальному середовищі. Прикладом цього може бути запит “Історія України”.

Інформаційні — запити на отримання конкретної інформації від системи WWW. Як правило, по даних запитах у глобальному середовищі немає конкуренції, результати пошуку ведуть на глибокі сторінки сайтів з конкретною інформацією. Часто інформаційні запити є довгими та використовують додаткові уточнення умов пошуку. Прикладом інформаційного запиту може бути “Дата битви під Берестечком”.

Довжина пошукового запиту (особливо навігаційного призначення) є важливим фактором рівня конкуренції. Як правило, чим довший запит, тим нижча конкуренція (за статистикою пошукових систем понад дві третини запитів є запитами з одного та двох слів). Винятками можуть бути лише деякі усталені словосполучення (наприклад “Web design” шукається частіше, ніж “design”).

Для зменшення обсягів інформації, яка використовується в задачі оптимізації тематики сайту, що визначається пошуковими запитами, доцільно приймати ряд спрощень і обмежень:

— усувати з розгляду довгі комбінації ключових слів;

— вважати, що сторінка не може бути релевантною великій кількості комплектів пошукових фраз, кожен з яких базується на іншому наборі ключових слів (на практиці розумними можуть бути обмеження від 1 до 5 залежно від рівня конкуренції по вибраній тематиці).

При визначенні комплекту запитів, що базується на одній множині ключових слів, важливо враховувати такі особливості обробки запитів у сучасних пошукових системах:

— порядок слів є практично несуттєвим;

— службові слова є практично несуттєвими;

— регістр літер є несуттєвим;

— повторення слова у фразі не впливає на результати пошуку;

— незначні орфографічні відмінності можуть не впливати на результати пошуку;

— морфологія слів враховується і, як наслідок, різні словоформи можуть бути еквівалентними.

РИ, 2005, № 2

77

Відзначимо, що в силу ряду факторів (зокрема, великих обсягів даних, закритості службової інформації та нечіткості вхідних даних) задача оптимі-зації тематики сайту на основі пошукових фраз є надзвичайно складною та вирішується з обов’язковим залученням експерта. Проте побудова відповідних формальних моделей дозволяє частково автоматизувати найтрудомісткіщі етапи даного процесу та побудувати засоби напівавтоматизованої генерації й верифікації тематики сайту і відповідності сайту даній тематиці.

7. Оптимізація сайту icm.ridne.net

Далі наводяться результати процесу оптимізації тематики та її подання для сайту icm.ridne .net, який здійснювався згідно з наведеними вище алго-ритмами[9,10].

Мета сайту була визначена як інформування про діяльність кафедри “Інформаційні системи та мережі” Національного Університету “Львівська Політехніка”;

Як аналоги в середовищі WWW вибрано існуючі сайти навчальних закладів.

Було прийняте рішення як критерій ефективності використовувати кількість відвідувачів сайту (рис.2).

З точки зору визначення тематики час існування можна поділити на такі періоди:

1) вибір оптимальної тематики не проводився;

2) тематику було визначено як “інформаційні системи та мережі”;

3) тематику було розширено як “інформаційні системи”.

На кожному з етапів проводилися роботи щодо покращення подання тематики на сайті та серед його глобального оточення в системі WWW.

Описані методики та алгоритми оптимізації сайту застосовувалися й при проектуванні та реалізації дистанційного освітнього Веб-проекту” Галицький турнір юних інформатиків” (www.icm.ridne.net/ turnir) [7].

Рис. 2. Динаміка зміни кількості відвідувачів сайту (“хостів”)

8. Висновки

Визначення тематики сайту є актуальною задачею, що постає перед розробниками WWW-систем ще на етапі проектування сайту. Від вирішення цієї проблеми у визначальній мірі залежить подальша успішність сайту (задоволення ним потреб власників).

Наукова новизна. Одним з можливих підходів до розв’язання цієї задачі є використання запитів до пошукових машин Інтернету.

Практична цінність. Даний підхід дозволяє формалізувати визначення тематики сайту та побудувати формальні підходи до її оптимізації.

Порівняння з аналогами. У порівнянні з аналогами, пропоновані методи передбачають формальні підхо -д и до опису тематики сайту та її оптимізації з огляду на інтереси власників.

Результати досліджень. Даний метод проілюстровано результатами функціонування сайту кафедри “Інформаційні системи та мережі” Національного Університету “Львівська Політехніка”.

Література: 1.Mobasher B., Dai H., Luo T, Nakagawa M., Sun Y, and Wiltshire J. Discovery of aggregate usage profiles for Web personalization // Proceedings of the WebKDD 2000 Workshop at the ACM SIGKKD 2000, Boston, August 2000. Р. 166—178. 2.Flake G, Lawrence S, Giles C. Efficient identification of web communities // Proceedings of the Sixth International Conference on Knowledge Discovery and Data Mining (ACM SIGKDD-2000), Boston, MA, 2000. ACM Press.P. 145-154. 3. Flake G., Lawrence S., Giles C., Coetzee F. Self-Organization of the Web and Identification of Communities. IEEE Computer, 35(3), 2002. P.66-71. 4. GilletS, KaporM. Self-govering Internet: Coordination by Design. Massachusetts Institute of Technology. Center for Coordination Science. Technical Report. 1997. 25 p. 5. Srivastava J., Cooley R., Deshpande M. P-T. Tan. Web usage mining: discovery and applications of usage patterns from Web data. SIGKDD Explorations, (1) 2. 2000. P. 38-44. 6. PennockD, Flake G, Lawrence, Glover E, Giles C. Winners don’t take all:Characterizing the competition for links on the web. Proceedings of the National Academy of Sciences, Volume 99, Issue 8. April, 2002. P. 5207-5211. 7. Голощук Р.О. Інтелектуальна система дистанційного контролю знань учасників олімпіад та турнірів юних інформатиків // Інформаційні системи та мережі. Вісник Національного Університету “Львівська Політехніка11. № 489. Львів, 2003. С.90-100. 8.Кирсанов Д. Веб-дизайн. Спб., 1999. С.360. 9. Пелещишин А.М. Методи та алгоритми моделювання Web-систем. Вісник ДУ “Львівська Політехніка”, №406. Львів, 2000. С.199-211. 10. Пелещишин А.М., Гулка Т.Б. Інформаційна система аналізу діяльності Web-вузла, Вісник НУ “Львівська Політехніка” №438. Інформаційні системи та мережі. 2001. С.115-120.

Надійшла до редколегії 01.02.2005

Рецензент: д-р техн. наук, проф. Маторін С.І.

Голощук Роман Олегович, старший викладач НУ “Львівська політехніка”. Наукові уподобання: системи дистанційного навчання, системи адаптивних ме-режевоцентричних обчислень, технології web-агентів. Адреса: Україна, 79000, Львів, вул. Ст. Бандери, 12. тел. (0322) 39-85-38, e-mail: roman@icm.lviv.ua,

roman_prof@mail. ru

Пелещишин Андрій Миколайович, канд. техн. наук, доцент НУ “Львівська політехніка”. Наукові уподобання: проектування Web-систем, пошукові системи, розподілені інформаційні системи. Адреса: Україна, 79000, Львів, вул. Ст. Бандери, 12, тел. (0322) 39-85-38, ел. пошта:andrij@icm.lvгv.ua.

78

РИ, 2005, № 2

i Надоели баннеры? Вы всегда можете отключить рекламу.