ІНФОРМАЦІЙНІ І ТЕЛЕКОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ
УДК 004.5
В.А. ЛИТВИНОВ*, І.М. ОКСАНИЧ*, С.Я. МАЙСТРЕНКО*
ПРЕДИКТИВНИЙ ТАЙПІНГ В ІНТЕРФЕЙСІ КОРИСТУВАЧА ІНФОРМАЦІЙНО-ПОШУКОВОЇ СИСТЕМИ
Інститут проблем математичних машин і систем НАН України, Київ, Україна
Анотація. Наводиться огляд результатів теоретичних і експериментальних досліджень механізмів предиктивного тайпінгу в інтерфейсі користувача систем пошуку за ключовими словами. Представлено залежності між параметрами інтерфейсу користувача і його продуктивністю. Даються кількісні оцінки.
Ключові слова: інтерфейс користувача, пошук за ключовим словом, покрокова підказка, предик-тивний тайпінг.
Аннотация. Приводится обзор результатов теоретических и экспериментальных исследований механизмов предиктивного тайпинга в интерфейсе пользователя систем поиска по ключевым словам. Представлены зависимости между параметрами интерфейса пользователя и его производительностью. Даются количественные оценки.
Ключевые слова: интерфейс пользователя, поиск по ключевому слову, пошаговая подсказка, предиктивный тайпинг.
Abstract. The review of the results of theoretical and experimental studies of predictive typing mechanisms in the user interface of systems of keyword search is given. The dependencies between the parameters of the user interface and its performances are presented. Quantitative estimates are given. Keywords: user interface, keyword search, step by step tip, predictive typing.
1. Вступ
Під предиктивним тайпінгом (ПТ) [1, 2] мається на увазі введення послідовності символів за допомогою реальної або віртуальної (екранної) клавіатури з можливістю упереджуючої (предиктивної) підказки закінчень слів і словосполучень на основі використання деякого базового словника (БС), що містить множину допустимих слів. Подібними механізмами оснащується інтерфейс користувача (ІК) різних пристроїв і систем: мобільні пристрої [3], редактори текстів документів і програм, системи пошуку за ключовим словом. Основною метою застосування ПТ є підвищення швидкості роботи користувачів.
Особливості конкретних застосувань ПТ залежать від виду клавіатури і процесу тайпінгу, способів формування і використання БС і т.п. Однією з найбільш масових областей застосування ПТ є ІК в інформаційно-пошукових системах (ІПС), а саме, в системах пошуку за ключовим словом (КС), для яких існує певна диспропорція між «людською» швидкістю формулювання та комп'ютерною швидкістю реалізації запиту. Так, наприклад, у глобальних ІПС GOOGLE, YANDEX, RAMBLER та ін. пошук та надання користувачеві інформаційних ресурсів (ІР), пов'язаних із заданим ключовим словом, вимагають менше секунди, а введення і ідентифікація ключового слова - до десяти і більше секунд.
Типова схема ІПС у ІР Інтернету наведена на рис. 1 [4]. Ця схема в [4] супроводжується констатацією того факту, що на сьогоднішній день поки ще не існує іншого способу швидкого пошуку інформації у великих обсягах різнорідних документів, окрім пошуку за ключовими словами.
© Литвинов В.А., Оксанич І.М., Майстренко С.Я., 2013 ISSN 1028-9763. Математичні машини і системи, 2013, № 4
Рис. 1. Схема ІПС Інтернету
Перетворимо цю схему, конкретизуючи вид запитів («за ключовим словом») і абстрагуючись від виду ІР, механізмів та етапів їх ідентифікації, змісту і способу формування БС (рис. 2).
На рис. 2 прийняті такі позначення та визначення:
• КС-зразок - ключове слово, що вводиться користувачем (вихідний запит);
Г‘
о
User interfacе
Ввід КС- зразка Іденти- фікація КС- зразка Іденти- фікація КС- еталона
О О
А *
АІК БС
L.
Рис. 2. Схема реалізації запитів за ключовим словом
• БС - базовий словник припустимих слів-еталонів, що використовується для формування підказки користувачеві і, можливо, для роботи АІК;
• АІК - програмна система автоматичної ідентифікації та корекції помилок введення КС-зразка;
• ідентифікація КС-зразка - контроль і корекція помилок введення ключового слова;
• ідентифікація КС-еталона - встановлення відповідності між КС-зразком і еталоном, що підказується;
• О - вихідний запит, (V) - запит, що виконується, (V) - результат виконання запиту.
У найпростіших інформаційно-пошукових системах БС і ІР можуть співпадати, але для функцій інтерфейсу користувача це не має принципового значення. Істотне значення мають способи виконання етапів ідентифікації еталона та ідентифікації зразка.
Стаття присвячена огляду результатів досліджень механізмів ПТ в ІК систем пошуку за ключовим словом на етапах ідентифікації КС-еталона, залежностей між параметрами ІК і його продуктивністю, трендів відповідних кількісних оцінок.
2. Методологія оцінки продуктивності ПТ
2.1. Модель декомпозиції ментальних операторів GOMS-KLM у процесах ПТ
Для оцінки швидкості роботи користувача існує неевристичний метод, заснований на використанні загальної моделі GOMS (Goals, Operators, Methods, Selection Rules), розробленої вченими Stuart Card, Thomas P. Moran та Allen Newell, і викладений ними у книзі [5].
Ця модель зводить взаємодію користувача і комп'ютера до елементарних акцій -(фізичних і когнітивних), стандартний набір яких включає оператори: K - натискання клавіші клавіатури, T(n) - набір послідовності символів, P - вказівка мишкою, M - ментальна підготовка та ін. За допомогою методів моделі GOMS можна розрахувати час, який знадобиться користувачеві для виконання деякого набору дій при використанні даного інтерфейсу.
Однією з істотних проблем, пов'язаних із застосуванням моделей GOMS, є розстановка операторів M, що визначають основну частину інтелектуального навантаження на користувача. Оператор M являє собою процедуру роздуму, спрямовану на вирішення проблеми, пов'язаної з будь-якою дією в інтерфейсі. У порівнянні з іншими простими операторами оператор M вимагає багато часу, так що інтерфейс з меншою кількістю операторів M може бути набагато швидшим, навіть якщо він вимагає більшої сумарної кількості простих операцій. У роботах [6, 7] обговорюється ця проблема і пропонуються рекомендації щодо її вирішення, які стосуються, в основному, кількості операторів M і їх розстановки.
Запропоновано інший підхід до вирішення зазначеної проблеми, пов'язаний з декомпозицією і спеціалізацією ментальних операторів стосовно до інтерфейсу для конкретних класів задач [8, 9].
Обгрунтованість даного шляху визначається такими основними факторами:
- ментальна підготовка до наступного кроку в інтерфейсі залежить від майбутніх
дій;
- оператори K, T(n) і P теж містять у собі якусь ментальну складову, що інтелектуально навантажує користувача, тобто вони теж є частково ментальними;
- спеціалізація моделей GOMS для конкретних класів задач звужує області можливих значень операторів і дозволяє розкласти сукупність дій на більш прості і певні кроки.
Відповідно до запропонованого підходу ментальні оператори розглядаються не як неподільні атоми, а як складні оператори, що складаються з більш дрібних спеціалізованих "мікрооператоров", набір яких залежить від проблемної області, що визначає призначення
та функціональний зміст інтерфейсу (рис. 3).
т - трудомісткість читання тексту з первинного носія і його осмислення (запам'ятовування) - с/симв;
т2 - трудомісткість пошуку символів на клавіа-ту рі і переміщення руки в позицію «над символом» -с/симв;
т3 - трудомісткість візуального аналізу введених символів на екрані і прийняття рішення про подальші дії (зокрема, про наявність або відсутність помилки) - с/симв;
Рис. 3. Схема декомпозиції ментальних операторів
m4 - трудомісткість виправлення помилкового символу оп-1іпє - с/симв;
/и5 - трудомісткість візуального аналізу і порівняння слова-зразка, що вводиться з
запропонованим на екрані словом - с/симв;
к - "чиста" трудомісткість натискання клавіші рукою, розташованою над символом
- с/симв.
За своєю суттю оператори ц1 М3,М5 - це чисто ментальні оператори, к - оператор руху, /и2 та - композиція ментальних дій і рухів.
Результати експериментального визначення значень, отримані в [9] для некваліфікованих користувачів (що не мають спеціальної підготовки в сенсі машинопису) стосовно до введення та аналізу цифрових кодів і мнемотексту (слів російською мовою, рідною для користувачів - учасників експерименту), наведені в табл. 1.
Таблиця 1. Виміряні та розраховані значення т, к
Мова т1 т 3 т 4 т к
Цифровий код 0,47 0,38 0,214 1,06 0,0435 0,15
Мнемотекст 0,16 0,25 0,055 0,80 0,045 0,15
2.2. Схема та параметри оцінки продуктивності ПТ
Приймемо такі позначення:
Лу = (а1...аі ...ап) - у -е слово БС, і = 1,п, у = 1,N ;
q - потужність множини символів (алфавіту), що складають слова-еталони та зразки.
Загальний алгоритм ПТ (рис. 4).
Користувач послідовно вводить символи а1,а2,...,аі зразка (починаючи з першого, старшого). На кожному кроці з БС у поточний довідник (можливо, віртуальний) розміщуються слова з однаковими значеннями символів а1, а1а2, ...,а1а2...аі.
Назвемо множину слів з однаковими значеннями символів а1а2...аі аі - множиною, потужністю ті. На схемі рис. 4 показана ситуація, коли в поточному довіднику знаходиться а2 -множина. З властивості лексикографічної впорядкованості слів-еталонів ясно, що т1) т2)...) ті, тобто область пошуку зразка звужується випадковим чином по мірі введення символів а1, а2,....
Щодо слів а і -множин справедливі такі очевидні положення.
Положення 1. аі+1 -множина є підмножиною аі -множини.
Положення 2. Слово-еталон, що належить до аі -множини, належить і до аі+1-множини.
У рамках загальної схеми рис. 4 можливі різні стратегії формування та використання поточного довідника [10].
Виключне поширення в системах з ПТ-інтерфейсом отримала стратегія з покроко-вою підказкою, в якій на кожному кроці введення зразка (тобто введення символів а1...аі) із загального поточного довідника обсягом ті слів користувачеві надається одна сторінка (порція) з т слів, обраних за певним критерієм.
ax a2
Строка зразка
a„
Поточний довідник підказки ( mi слів)
Рис. 4. Загальна схема інтерфейсу з упереджуючою підказкою
Трудомісткість конкретного акту введення, аналізу підказки та ідентифікації КС залежить від кількості введених символів V, достатніх для ідентифікації КС, і сумарної кількості слів М, переглянутих користувачем у порціях підказки.
Таким чином, загальний вираз, що визначає очікуване значення трудомісткості Н інтерфейсу, може бути представлений у такому вигляді:
H = t2 v + t3M + const.
(І)
де v, M - середні значення v, M;
t2 - питомий час введення символу і його візуального аналізу (тобто з перемиканням уваги користувача на екран);
t3 - питомий час візуального аналізу одного слова підказки;
const = P + BB + X (оператори GOMS, що визначають сумарний час підтвердження вибору конкретного слова в порції підказки).
З (І) випливає, що для заданих t2 , t3 задача оцінки продуктивності ПТ зводиться
до задачі визначення залежностей, що пов'язують значення v,M з параметрами інтерфейсу ( q,n, N, m та ін.). Як показано на схемі рис. 3, t2 =m2+m3 + k, t3 = m5 • n.
3. Логіко-ймовірнісна модель механізму покрокової підказки (ЬР-модель ПТ) [11]
Розглянемо деякий регістр, що містить д” комірок одиничної довжини, розташованих на прямій з номерами (координатами) 0 ^д” — 1 (д - алфавіт подання слів словника, п -кількість символів у ключовому слові а1..ап). Частина комірок у кількості, позначеній через N, є активною. Для активних комірок комбінація значень а1...ап відповідає реально
існуючим словам БС.
Приймемо такі базові припущення:
1. Розподіл активних комірок серед усіх комірок регістра є випадковим.
2. Для значень N, д, п виконується N»1, дп» N .
З прийнятих припущень випливає, що ймовірність г того, що довільно взята
N
комірка словника з параметрами N, д, п є активною, в межі дорівнює —, і значення г((1.
д”
Виділимо одну з активних комірок регістра як пошукову активну комірку ПА. Ця комірка відповідає пошуковому слову БС при завданні якогось ключового слова.
N
Припишемо кожній активній комірці значення рі < 1, причому ^ р= 1. Це зна-
і=і
чення має сенс імовірності того, що при довільному зверненні до словника комірка Л}. є пошуковою. При лексикографічній впорядкованості словника значення ррозподілені вздовж регістра випадковим чином (рис. 5).
Впорядкуємо активні комірки за зменшенням р(рис. 6), умовно переносячи їх на позиції 5 , номери яких відповідають номерам значень р] в упорядкованому за зменшенням списку. Апроксимуємо отриманий дискретний розподіл імовірностей рі неперервною функцією р(х) і виділимо на осі х точку Ь = д”. Функція р(х) відповідає умові
I р( х)dх = 1.
А
рз
р 4
р2 ?5
л і і і і і І і і і і і і і і 1 1 1 1 і 1 1 * * * • * • |_ИІ 1 и І і _и 1 1 1
Л
ПЛ
-*-2 ^3 ^4 П^- ^^N—1
Рис. 5. Реальний (гіпотетичний) розподіл імовірностей р ■
д” — 1
рЛ рА
111 1 р^з МІМІ 4 Мі і 1 і і
0 А Л 2 Лз Л-5
її І І І
Лі Л, п” 1
]N—l J N д — 1
Рис. 6. Упорядковане розподілення р
Рис. 7. Апроксимація упорядкованого розподілу ймовірностей
0
N—1
N
0
N
х
Виділимо на осі х (рис. 7) д” точок з координатою х, (,= 1,2,...,д”). Поставимо у відповідність кожній точці число ж,, яке має сенс імовірності того, що для довільного словника з параметрами N д, п і довільного звернення комірка , є активною пошуковою коміркою.
Розглянемо покроковий процесс вкидання куль в урну «з вузьким отвором» і подальшого їх вилучення з наступними вихідними умовами. На початку процесу є д” куль,
кожній з яких приписується значення Р,. З первинної кількості куль випадковим чином з імовірністю Р, вибирається "мічена куля", яка відповідає пошуковій активній комірці.
На черговому кроці і (і = 1,2,...) з д”-і+1 випадковим рівноймовірним чином вибирається д”-1 -1 куля. «Мічена куля» вкладається в урну заздалегідь, а дп-і -1 куль
вкидаються в урну. Будь-яка з куль може потрапити в урну з імовірністю г = п або не
/ д
потрапити в урну з імовірністю (і - г). Потрапляє в урну випадкова кількість куль g і , так що після вкидання в урні виявляється ті = gi +1 куля. Далі ті куль упорядковується за зменшенням значень Р, , і з урни витягується порція в кількості т куль з найбільшими значеннями Р,. Порція відповідає сторінці поточного довідника, що пропонується користувачеві. Якщо в порції виявляється «мічена куля», процес закінчений. Інакше і := і +1 і описаний крок процесу повторюється аж до знаходження в черговій порції «міченої кулі». Потрібно визначити розподіл імовірностей значень і, при яких процес закінчується.
Побудова відповідної моделі [11] дає такі наближені вирази для безумовної ймовірності завершення процесу на кроці і .
Р(і ) =
де Іт - найближче ціле, більше або рівне 1о§
Рг П(1 -Рг,) для 1 < Тш-1
5=1 *
Іт-1
1 П(1 -Р5 ) для і = Іт
5=1
N
(2)
Рг
д т -1
Хі
Iр(х^х для г ■ д"
О
1 для г ■ д
Ь ■ т
г ■ д Ь
+1
для г ■ д” 1 > т -1 для г ■ д”-1 < т -1
(3)
(4)
Отримані вирази для р. , р(і) дозволяють визначити наближені середні значення
кількості введених символів V та кількості слів М, переглянутих у процесі підказки до ідентифікації ключового слова. Зокрема,
т
Xі ■Р(і У
(5)
і=1
V
_ Іт-1
М = X [(і - ^ т +АМ1 ]Р(і )+[(іт - ^ т +АМ 2 ]р(іт ) . (6)
і=1
В останньому виразі ДМ1 та АМ 2 - поправки, що залежать від виду функції р(х) і припущень, прийнятих щодо розподілу пошукового ключового слова в порції підказки.
4. Застосування ЬР-моделі до оцінки продуктивності та вибору параметрів ІК з по-кроковою підказкою
4.1. Оцінка продуктивності
Відомий принцип Парето у застосуванні до опису затребуваності інформаційних ресурсів дає підставу стверджувати, що в будь-якій інформаційній системі, як правило, найбільш активно використовується порівняно невелика частина ресурсів. Так, наприклад, велика кількість користувачів Інтернету часто відвідує порівняно невелику кількість сайтів [12]. Убуваючу функцію щільності розподілу ймовірностей звертання до елементів множини інформаційних ресурсів, що має подібні властивості, в розглянутій задачі представлено у вигляді безперервної експоненційної функції р(х) = а ■ X ■ ехр(- Хх) .
Визначення значень ДМ1 і ДМ 2 засноване на таких спрощуючих припущеннях.
1. Якщо процес завершується на кроці і < Іт, то порція підказки на цьому кроці
може з рівною ймовірністю бути повною (містити т слів) або умовно неповною (містити з рівною імовірністю 1, 2, ..., т -1 слів). При цьому в обох випадках пошуковим може бути будь-яке слово порції.
2. Якщо процес завершується на кроці і = І т , то відповідна порція підказки може з рівною ймовірністю містити 1, ..., т слів і пошуковим може бути будь-яке з них.
У табл. 2 зведені розрахункові значення Н залежно від N, д, X = Хдп. Дані таблиці ілюструють можливі результати зменшення трудомісткості ІК за рахунок врахування і моніторингу затребуваності елементів інформаційних ресурсів, пов'язаних з ключовими
словами (значення X = 0 відповідає рівномірній функції р(х) = -1).
Таблиця 2. Розрахункові значення трудомісткостей ІК залежно від Ы, г, Л0
Ключове слово Л0 N, г
1,1 103 1,1 • 104 1,1 • 105 1,1 • 106
ТЕКСТ д = 32, п = 8, т = 10 0 5,91 7,90 10,69 14,03
5 4,06 6,94 9,61 12,17
10 3,31 6,38 8,69 11,34
20 2,97 5,49 7,60 10,70
КОД д = 10, п = 12, т = 10 0 10,61 16,48 22,44 28,41
5 8,33 13,85 19,75 25,71
10 6,78 12,00 17,84 23,79
20 5,11 9,88 15,63 21,56
З метою перевірки адекватності, меж застосовності та уточнення ЬР-моделі прове-
дено імітаційне моделювання процесів обробки БС і формування покрокової підказки. У
процесі моделювання досліджувалися базові варіанти поєднань параметрів («сигнатур»):
т = 10, п = 8, 12; д = 32 (ТЕКСТ), д = 10 (КОД), N = 106 -102, Л0 = 5, 10, 20.
У результаті імітаційного моделювання встановлено, що відхилення розрахункових і експериментальних даних у середньому тим більше, чим менше N і більше 1. В цілому, для N > 103 відносне відхилення залишається в межах до 3 ^ 4% для значень V і до 5 ^ 6 % для значень М . Для N < 102 похибка LP-моделі неприйнятно велика.
4.2. Залежність продуктивності ІК від об'єму порції підказки [13]
Представляє інтерес питання про вибір об'єму т «порції» (сторінки) підказками у контексті оцінки впливу значення т на основні параметри, що визначають продуктивність ІК. У даний час загальноприйнятих рішень у цьому відношенні поки немає. Цей факт ілюструють дані [13], що відображають використовувані значення т у різних інформаційно-пошукових системах і браузерах ( т = {10, 4, 5, 7} ).
На графіку рис. 8 наведено узагальнені розрахункові залежності значень V,М, Н від
т стосовно до експоненційної функції р(х) з параметром 1.
V (т) / V (4) М{т) / М{4) Н (т) / Н (4) М н
V
Н 1
М
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16
Рис. 8. Узагальнені розрахункові залежності значень V,М,Н від т
По осі ординат відкладені відносні значення V(т), М (т), Н (т), віднесені до «опорних» значень V(4), М (4), Н (4). У межах графічної розрізнюваності в прийнятому масштабі подання графік рис. 8 відображає узагальнені залежності в широкому діапазоні значень вихідних параметрів (N = 104 108, параметр А = 020, п = 816, д = 1032).
Для оцінки конкретних трендів в табл. 3 наведені абсолютні «опорні» значення V, М, Н для КС типу ТЕКСТ (д = 32 , N = 106,108) та КОД (д = 10,N = 104,106).
Таблиця 3. Опорні значення V, М, Н
д N А0 V (4) М (4) Н (4)
32 106 0 3,86 13,24 7,8
10 3,23 10,6 6,58
108 0 4,96 17,59 9,89
10 4,64 16,30 9,28
10 104 0 3,56 12,25 10,34
10 2,62 8,37 7,62
106 0 5,56 20,26 16,01
10 4,61 16,37 13,27
Як видно з графіка рис. 8, мають місце такі тенденції впливу вибору обсягу сторінки підказки m на істотні результатні параметри інтерфейсу. Збільшення значення m з мінімально можливого (m = і) до 4, 10 і далі викликає зменшення v і, відповідно, зменшення значення першого доданка (1).
З іншого боку, при цьому у відносно більшій мірі зростають значення M і, відповідно, другого доданка (1). У результаті значення H істотно збільшується.
Зазначені тенденції підтверджуються і вибірковими експериментальними даними. Так, для оцінки впливу значення m на v, M був проведений експеримент по введенню 32-х довільно взятих слів орфографічного російського словника довжиною 7-9 символів у пошуковій системі GOOGLE та аналізу поточних значень v,M.
Результати експерименту наведено в табл. 4 у порівнянні з розрахунковими даними (ТЕКСТ, q = 32 , N = 108, l0 = 10, n = 8). Для експерименту середнє значення n = 7, а значення H оцінено як «індикативне», шляхом підстановки експериментальних значень v, m у (1).
Т аблиця 4. Результати експерименту у порівнянні з розрахунковими даними
Значення ()4 о\ M (10)/ /M (4) h(ю^ , /H (4)
теор. експ. теор. експ. теор. експ.
Абсолют. 4,30 4,47 37,34 38,7 16,7 16,74
4,64 4,8 16,31 17,2 9,28 9,44
Відносні 0,93 0,93 2,29 2,25 1,80 1,77
Мінімальні значення M і H досягаються при m = 1 та близькі до відповідних значень прицільної підказки [10]. Однак при цьому зменшуються до мінімуму можливості заміщення ключового слова якимось потенційним синонімом (ПС), який може з'явитися в порціях підказки раніше, ніж буде введений детермінант ключового слова - мінімальна кількість початкових символів, що однозначно його визначають. На додаток до більш ранньої появи ПС може і точніше передавати сенс запиту користувача. Іншими словами, в покроковій підказці закладені механізми як підказки набору символів КС, так і підказки сенсу КС.
Для простих інформаційно-пошукових систем з близькою до однозначної відповідністю «ключове слово - ресурс» підказка уточненого сенсу якщо й можлива, то не має особливого практичного значення. Для ІПС, де це відношення має більш складний, багатозначний характер (типу «багато до багатьох»), ситуація виявляється іншою, і можливість заміщення КС синонімом повинна була б давати очікуваний двоякий ефект.
4.3. Експериментальна перевірка потенційної ефективності синонімічного заміщення КС на прикладі конкретної ІПС
Мета експеримента полягала в натурному моделюванні процесу підказки в реальній ІПС з багатозначними відносинами «ключове слово - ресурс» для встановлення орієнтовних залежностей і кількісних співвідношень між істотними (у контексті розглянутого питання) вихідними і результатними параметрами покрокової підказки.
У глобальній ІПС GOOGLE (браузер ІЕ-8) здійснювалося введення 32-х довільно вибраних КС, що складалися з одного слова довжиною 7-10 символів, і 32-х двукратних словосполучень, відокремлених пропуском (2-словосполучень), сумарною довжиною 15 -20 символів.
Спілкування з GOOGLE проходило у двох режимах:
А - використання синонімічного заміщення. Якщо в порціях підказки з'являвся ПС, він вибирався як ключове слово. Якщо серед 10 перших ресурсів, наданих за запитом, не знаходилося задовільного (в сенсі прийнятної релевантності), введення КС повторювалося
з ігноруванням ПС.
В - ігнорування синонімічного заміщення. Процес введення символів і аналізу порцій підказки тривав до появи в підказці саме конкретного КС.
Як критерії оцінки ефективності режимів, окрім реальних значень V,М і індикативних значень Н, додатково фіксувався порядковий номер к < 10 ресурсу, що надається системою і задовольняє зробленому запиту.
Узагальнені кількісні характеристики результатів проведеного натурного моделювання зведені в табл. 5.
Таблиця 5. Узагальнені результати натурного моделювання
Ключ. слово п Режим т Н (10) Н (4) к
10 4
V М Н V М Н
1 8,7 А 5,22 44,87 21,24 5,53 21,81 12,35 1,72 3,09
В 4,84 41,84 19,89 5,16 18,53 10,9 1,82 1,69
2 18,3 А 8,91 83,53 54,25 10,66 41,00 30,14 1,80 3,28
В 9,25 87,69 56,81 10,65 40,94 30,10 1,88 1,16
Про що говорять дані табл. 5?
1. Підтверджені теоретичні значення співвідношень V(10)/ V(4), М(10/М(4), Н (10)/ Н (4), зокрема, і для словосполучень з довжиною, що майже втричі перевищує значення п у розрахункових та експериментальних даних табл. 4.
2. Використання потенційних синонімів у проведеному експерименті не привело до очікуваного скорочення трудомісткості введення КС: значення М та Н режиму А в порівнянні з В виявилися приблизно рівними для словосполучень і навіть вище для одиночних слів (21,81 та 18,53, 12,35 та 10,9 ). Більше того, для режиму А виявилися і помітно вищими значення к , що характеризують «вторинну» трудомісткість пошуку найбільш відповідного ресурсу з числа наданих пошуковою системою. Проте слід очікувати, що для більш довгих словосполучень (трикратних і вище) синонімічне заміщення має давати позитивний ефект - тим більший, чим вище довжина словосполучення.
5. Відносна продуктивність прискореного введення ключового слова
Кількісні оцінки продуктивності та критеріїв вибору параметрів інтерфейсу користувача пошукової системи з покроковою підказкою ключового слова, наведені вище, характеризують недосвідченого користувача, який, як передбачається, після набору кожного символу візуально аналізує чергову порцію підказки об'ємом т слів. У той же час з результатів аналізу функції р(і) покрокового розподілу ймовірностей успішного завершення процесу підказки (тобто виявлення та ідентифікації пошукового ключового слова) та й з практичного досвіду випливає, що значення р(і) для малих і досить малі. Таким чином, введення початкових символів ключового слова малорезультативне. Тому досвідчений користувач попередньо набирає кілька (позначимо через с) символів у прискореному режимі («наосліп»), без перегляду запропонованих порцій підказки, і лише потім звертається до екрану. Якщо значення с занадто мале, проглядаються зайві порції підказки; якщо занадто велике - вводяться зайві символи.
5.1. Теоретичні залежності
Визначимо значення с як кількість кроків (введених символів ключового слова), що передують фазі візуального аналізу чергових порцій підказки. Це означає, що для режиму недосвідченого користувача с = 1. З урахуванням наведеного уточнення загальний вираз, який визначає значення Н (с), може бути представлений в такому вигляді, що узагальнює (1):
Н (с)»(с - 1)г1 + ^(с) - н + 1]г2 + М (с)г3 + соті,
(7)
де Т1 - питомий час введення символу у прискореному режимі («наосліп»).
Узагальнення виразів (5, 6) на випадок довільного значення с дає такі результати:
с Іт
с • 2р(і) + 2і 'Р(і)
і=1 і=с+1
Чс) =
для с £ Іт ,
для с>Іт
(8)
ДМ
І -1
т
і = 1
і = с +1
1 • 2 рр] + 2 (і -с)' т + ДМ1 • р(і) +
І - с І • т + ДМ,
т у 2
р\І
т
для с < І
т
для с = І , т
для с > І . т
(9)
У табл. 6, 7 наведені результати розрахунків значень V (с), М (с), Н (с) для д = 32,10, N = 104 -108, рівномірного (і = 0) виду функції р(х).
Таблиця 6. Текст д = 32, п = 7, т = 10
с
1
N І т V, М, Н С
1 2 3 4 5 6 7
104 3 V (с ) 2,04 2,07 3 4 5 6 7
М (с) 14,67 4,99 3,25 1 1 1 1
Н (с) 6,85 3,76 3,579 3,27 3,67 4,07 4,47
106 4 V (с ) 3,66 3,66 3,68 4 5 6 7
М (с) 30,26 20,26 10,37 3,25 1 1 1
Н (с) 12,5 9,3 6,13 3,98 3,67 4,07 4,47
108 5 V (с ) 4,89 4,89 4,89 4,89 5 6 7
М (с) 42,27 32,27 22,27 12,3 3,25 1 1
Н (с) 16,84 13,63 10,43 7,24 4,38 4,07 4,47
Таблиця 7. Цифровий код д = 10, п = 12, т = 10
N ^т V, М, Н С
1 2 3 4 5 6 7 8 9 10 11 12
104 4 V (с ) 2,96 2,97 3,08 4 5 6 7 8 9 10 11 12
М (с) 23,91 14,01 5,09 3,25 1 1 1 1 1 1 1 1
П Продовж. табл. 7
H (c) 15,99 10,61 5,82 5,33 4,69 5,22 5,75 6,28 6,8 7,34 7,87 8,4
106 6 V (c ) 4,96 4,96 4,96 4,97 5,08 6 7 8 9 10 11 12
M (c) 43,88 33,88 23,89 14 5,09 3,25 1 1 1 1 1 1
H (c) 27,9 22,46 17,04 11,67 6,88 6,39 5,75 6,28 6,81 7,34 7,87 8,4
108 8 v (c ) 6,96 6,96 6,96 6,96 6,96 6,98 7,08 8 9 10 11 12
M (c) 63,88 53,88 43,88 33,88 23,9 14 5,09 3,25 1 1 1 1
H (c) 39,82 34,39 28,96 23,52 18,1 12,7 7,94 7,45 6,81 7,34 7,87 8,4
При визначенні H (c) для t прийнято експериментально встановлене [9] значення t = k+m2.
З виразів (7) - (9), наведених у таблицях даних, випливає, що незалежно від N, q та інших параметрів базового словника залежності H (c) монотонно убувають від значення c = 1 до значення c = Im +1, а потім монотонно зростають у міру збільшення c. Іншими словами, теоретичне оптимальне значення c = c0 дорівнює
co = log q~^ +1. (10)
m -1
5.2. Експериментальні дані
З метою співставлення теоретичних залежностей і розрахункових даних з реальними даними було проведено натурне моделювання процесу введення слів російської мови в ІПС GOOGLE.
У табл. 8 представлені фрагменти експериментальних даних і усереднені значення, що відображають суть проведених експериментів і характер реальних залежностей v (c), M (c), H (c).
Таблиця 8. Експериментальні дані
№ Слово n v m(l) H (1) m(v) H (v) Со M « H (c0) H (Co) H (1) H(Co) H(v)
1 Абсолют 7 2 18 7,83 8 4,68 3 3 3,5 0,45 0,75
2 Абсциса 8 4 32 14,45 2 3,66 4 2 3,68 0,25 1
3 Акциз 5 3 24 7,96 4 3,46 4 2 3,41 0,43 0,99
4 Акціонер 8 5 45 19,56 5 5,16 5 5 5,16 0,26 1
27 Дедукція 8 3 26 11,52 6 4,32 4 2 3,68 0,32 0,85
28 Дисконт 7 3 25 10,43 5 4,13 3 5 4,13 0,4 1
29 Дифтонг 7 4 33 13,35 3 3,9 5 1 3,67 0,27 0,94
30 Дебаггер 8 4 33 14,84 3 4,04 5 1 3,72 0,25 0,92
Середні значення 6,86 3,87 31,8 12,79 3,14 3,79 4,31 2,14 3,65 0,3 0,97
Теоретичні значення
10 = 0, N = 106 7,0 3,7 30,3 12,5 - - 5,0 1 3,67 0,29 ~0,92
Наведені дані підтверджують порядок зниження трудомісткості інтерфейсу при оптимальному виборі значення c. Так, відношення H(CoJH(і) = 0,30 для експериментальних даних і 0,25-0,29 для теоретичних розрахунків. Що стосується значення c0, то тут
експериментальні та теоретичні дані теж цілком порівняні (4-5 в експерименті та 5-6 - у теоретичних розрахунках).
б. Висновки
Запропонована та експериментально перевірена LP-модель предиктивного тайпінгу дозволяє оцінити середні значення кількості введених символів v , кількості візуально проаналізованих слів M і загального значення продуктивності інтерфейсу користувача з покроковою підказкою для заданих q, n, N, p(x), m та результативного пошуку (наявності
пошукового ключового слова в БС). У разі нерезультативного пошуку функція p(x)
втрачає сенс і значення v, m, H визначаються відповідними виразами [10].
СПИСОК ЛІТЕРАТУРИ
1. Typing [Електронний ресурс]. - Режим доступу: http: //en .wikipedia. org/wiki/T yper.
2. Предиктивный ввод текста [Електронний ресурс]. - Режим доступу: http://ru.wikipedia.org/ wiki/Предиктивный ввод текста.
3 .Т9 [Електронний ресурс]. - Режим доступу: http: //ru .wikipedia. org/wiki/T9.
4. Информационно-поисковые системы Internet [Електронний ресурс]. - Режим доступу: http://citforum.ru/nets/services/services03l2.shtml.
5. Card S.K. The Psychology of Human-Computer Interaction / Card S.K., Moran T.P., Newell A. - Hillsdale, NJ: Lawrence Erlbaum Associates, 1983. - 488 c.
6. Kieras D. Using the Keystroke-Level Model to Estimate Execution Times, University of Michigan [Електронний ресурс] / D. Kieras. - Режим доступу: ftp://www.eecs.umich/edu/people/rchong/ kie-ras/GOMS/KLM.pdf.
7. Раскин Д. Интерфейс. Новые направления в проектировании компьютерных систем / Раскин Д. -Санкт-Петербург-Москва: Символ, 2006. - 268 с.
8. Кузьменко Г.Е. Декомпозиция ментальных операторов в моделях GOMS-KLM применительно к интерфейсу пользователя в задачах ввода и контроля данных / Г.Е. Кузьменко, В.А. Литвинов, И.Н. Оксанич // Интеллектуальный анализ информации. IX междунар. конф. имени Т.А. Таран ИАИ-2009, (Киев, 19-22 мая 2009 г.). - Киев, 2009. - С. 212 - 218.
9. Оксанич И.Н. Модель декомпозиции ментальных операторов в проблемно-ориентированном интерфейсе пользователя и ее экспериментальное исследование / И.Н. Оксанич // Математичні машини і системи. - 2010. - № 1. - С. 105 - 112.
10. Интеллектуализованный интерфейс пользователя информационно-поисковой системы в задаче поиска по ключевому слову («образцу») с упреждающей подсказкой / Г.Е. Кузьменко, В. А. Литвинов, С.Я. Майстренко [и др.] // Математичні машини і системи. - 2011. - № 1. - С. 61 - 71.
11. Литвинов В.А. Логико-вероятностная модель пошаговой подсказки в интерфейсе пользователя поисковой системы по ключевому слову / В.А. Литвинов, С.Я. Майстренко, И.Н. Оксанич // Математичні машини і системи. - 2011. - № 2. - С. 41 - 49.
12. Закон Парето [Електронний ресурс]. - Режим доступу: http://ru.wikipedia.org/wiki
/Закон Парето.
13. Литвинов В.А. Относительная производительность ускоренного ввода ключевого слова в поисковой системе с пошаговой подсказкой / В.А. Литвинов, И.Н. Оксанич, С.Я. Майстренко // Математичні машини і системи. - 2013. - № 1. - С. 91 - 95.
Стаття надійшла до редакції 20.06.2013