Научная статья на тему 'Алгоритми і моделі автоматичної ідентифікації та корекції типових помилок користувача на основі природної надмірності'

Алгоритми і моделі автоматичної ідентифікації та корекції типових помилок користувача на основі природної надмірності Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
277
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОШИБКА ПОЛЬЗОВАТЕЛЯ / АВТОМАТИЧЕСКАЯ КОРРЕКЦИЯ / ДОСТОВЕРНОСТЬ ДАННЫХ / USER ERRORS / AUTOMATIC CORRECTION / DATA RELIABILITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьменко Г. Є., Литвинов В. А., Майстренко С. Я., Ходак В. І.

Исследованы алгоритмы и модели автоматической идентификации и коррекции ошибок пользователя на основе словаря-эталона. Получены количественные оценки эффективности алгоритмов. Показано, что рассмотренный метод и конкретные алгоритмы его реализации могут быть использованы для снижения общей трудоемкости ввода информации в ЭВМ и повышения результатной достоверности. В частности, применение метода позволяет автоматически или с минимальным участием пользователя исправлять от 62% до 93% типовых ошибок, в зависимости от выбранного ансамбля корректируемых ошибок. Даны рекомендации по программной реализации и практическому применению метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The algorithms and models of automatic identification and corrections of errors of the user are investigated on the basis of the reference glossary. The quantitative estimations of efficiency of algorithms are received. It is shown, that the considered method and the concrete algorithms of its realization can be used for decreasing of common labour of input of the information in the COMPUTER and increasing the resulting reliability. In particular, the application of a method allows automatically or with the minimal participation of the user to correct from 62 % up to 93 % of typical errors, depending on the chosen ensemble of corrected errors. The recommendations for program realization and practical application of a method are given.

Текст научной работы на тему «Алгоритми і моделі автоматичної ідентифікації та корекції типових помилок користувача на основі природної надмірності»

УДК 681.51:57

Г.Є. КУЗЬМЕНКО, В.А. ЛИТВИНОВ, С.Я. МАЙСТРЕНКО, В.І. ХОДАК

АЛГОРИТМИ І МОДЕЛІ АВТОМАТИЧНОЇ ІДЕНТИФІКАЦІЇ ТА КОРЕКЦІЇ ТИПОВИХ ПОМИЛОК КОРИСТУВАЧА НА ОСНОВІ ПРИРОДНОЇ НАДМІРНОСТІ___________________

Abstract: The algorithms and models of automatic identification and corrections of errors of the user are investigated on the basis of the reference glossary. The quantitative estimations of efficiency of algorithms are received. It is shown, that the considered method and the concrete algorithms of its realization can be used for decreasing of common labour of input of the information in the COMPUTER and increasing the resulting reliability. In particular, the application of a method allows automatically or with the minimal participation of the user to correct from 62 % up to 93 % of typical errors, depending on the chosen ensemble of corrected errors. The recommendations for program realization and practical application of a method are given.

Key words: user errors, automatic correction, data reliability.

Анотація: Досліджено алгоритми і моделі автоматичної ідентифікації та корекції помилок користувача на основі словника-еталону. Отримані кількісні оцінки ефективності алгоритмів. Показано, що розглянутий метод і конкретні алгоритми його реалізації можуть бути використані для зниження загальної трудомісткості введення інформації в ЕОМ і підвищення результатної вірогідності. Зокрема, застосування методу дозволяє автоматично чи з мінімальною участю користувача виправляти від 62% до 93% типових помилок, у залежності від обраного ансамблю помилок, що коригуються. Дано рекомендації з програмної реалізації і практичного застосування методу.

Ключові слова: помилки користувача, автоматична корекція, вірогідність даних.

Аннотация: Исследованы алгоритмы и модели автоматической идентификации и коррекции ошибок пользователя на основе словаря-эталона. Получены количественные оценки эффективности алгоритмов. Показано, что рассмотренный метод и конкретные алгоритмы его реализации могут быть использованы для снижения общей трудоемкости ввода информации в ЭВМ и повышения результатной достоверности. В частности, применение метода позволяет автоматически или с минимальным участием пользователя исправлять от 62% до 93% типовых ошибок, в зависимости от выбранного ансамбля корректируемых ошибок. Даны рекомендации по программной реализации и практическому применению метода.

Ключевые слова: ошибка пользователя, автоматическая коррекция, достоверность данных.

1. Вступ

Одним із загальних напрямків підвищення якості інформаційної бази систем є забезпечення погодженості значень її елементів на всіх етапах життєвого циклу, починаючи з вводу даних. В рамках цього напрямку істотну роль відіграє автоматична ідентифікація і коректування (АІК) типових помилок користувача при вводі інформації (2-й рівень системи контролю погодженості інформації, запропонованої в [1]).

Огляд методів протиперешкодного кодування для захисту інформації від помилок оператора вводу - методів, заснованих на „цілеспрямованій” надмірності, що спеціально вводиться в інформацію, наведено в [2]. Розглянуті в [2] методи потребують попереднього спеціального кодування, порівняно високої додаткової надмірності і не кращим чином пристосовані до більшості специфічних помилок людини, зокрема, до транспозицій, пропусків, доповнень символів (частковим виключенням можна вважати метод Сетхі [3]). Це пояснюється значною мірою тим, що відзначені методи більшою частиною призначені для автокорекції помилок в електронних пристроях та телекомунікаційних каналах зв’язку (і саме в цьому призначенні вони широко і успішно використовуються).

В [4] і [5] розглянуті два часткових варіанти методу АІК помилок користувача на основі так званої „природної” надмірності, що у даному випадку описується словником дозволених слів. Цей метод, не дивлячись на свою явну концептуальну простоту, уявляється цілком перспективним для ідентифікації і корекції специфічних помилок користувача. Потенціальна перспективність методу обумовлена:

- нульовою додатковою інформаційною надмірністю;

- відсутністю необхідності у попередньому розрахунку кодів;

- можливістю ідентифікації і корекції всіх основних видів специфічних помилок людини.

Мета даної роботи полягає в істотному доповненні і узагальненні часткових результатів [4] і

[5] у напрямку порівняльного аналізу всіх можливих стратегій (алгоритмів) вибору слова словника, що є „найближчим” до спотвореного, а також розширенні набору помилок, що коригуються, у деякому сенсі, до повного.

2. Загальні положення

2.1. Вирішуючі правила АІК за словником

Загальна сутність методу АІК, що розглядається, полягає у варіюванні „зворотних” спотворень помилкового слова передбачуваними помилками, пошуку відповідних найближчих слів у словнику, прийнятті рішення відносно помилки, що відбулася, та у виборі слова для корекції. Уточнимо для даного методу поняття „найближче” слово та пов’язане з ним поняття „відстань”, що загалом є основою введення метрики у просторі помилок.

Як відомо, метрика являє собою правило визначення відстані ё(ЛБ) між точками простору

А і Б з координатами (признаками) відповідно а1...ап та Ь1...Ьп, що задовольняють відомим аксіомам. З багатьох різних відомих метрик для рішення традиційних задач автокорекції найбільше значення має метрика з відстанню Хеммінга, яка визначає сумарну кількість розрядів (символів), що не збігаються. Зокрема, для двійкових признаків

ё2(ЛБ) = Xа, ®Ь,

і

де © означає додавання по модулю 2.

Для довільних д-ічних слів ця відстань може бути записана в узагальненому вигляді:

де 0 = “•

Як відомо, практичний сенс ефективного вибору міри відстані для контролю-корекції помилок полягає в тому, щоб помилки, які найчастіше зустрічаються, приводили до переходів А ^ В з меншою відстанню, ніж більш рідкі помилки. Це унеможливлює появу різних за типом помилок з однаковою відстанню та забезпечує упевнену корекцію з мінімальними хибними “виправленнями” (а вони принципово можливі практично для будь-яких методів автокорекції). У

зв’язку з цим відстань типа Хеммінговської доцільно використовувати для пошуку найближчого слова, коли кратність помилок зворотно залежить від імовірності їх появи, та різниця в значеннях імовірності помилок різної кратності суттєво велика. Саме ці умови мають місце для статистики випадкових помилок у каналах зв’язку.

У нашому ж випадку для специфічних помилок людини (транскрипцій, транспозицій, доповнень, випадінь тощо) згадані закономірності відсутні. Так, помилки типу пропусків і доповнень символів мають кратність від „1” до „ п ” в залежності від позиції хибного символу, а імовірність появи такої помилки близька до імовірності появи транспозиції (подвійна помилка) і не на багато менше імовірності одиночної транскрипції [6]. З цієї причини для вирішуючого правила відносно найближчого слова в методі АІК, що розглядається, класичне поняття „відстань” неприйнятне і

практично може використовуватися лише одне „крайнє” значення (АВ) = 0, тобто повний збіг

двох слів.

2.2. Основні поняття та визначення

Приймемо такі позначення, визначення та припущення:

Ах,Ау,Вх - відповідно правильне слово вхідного повідомлення, спотворене слово А , в

якому викрита помилка, і деяке з еталонних слів словника, для якого ^Х(АхВх ) = 0. Будемо

вважати, що значення N слів словника в алфавіті д довжиною пх символів випадково-рівномірно

розподілені в інтервалі 0 ^ q тах. Це припущення дозволяє при оцінці імовірності збігу довільного слова із словником, слова змінної довжини пх інтерпретувати як слова постійної довжини, у яких відкинуті старі незначущі символи (зокрема, для цифрових значень - нулі), доформовуються до максимальної довжини птах = п ;

wk - ранг помилки класу Ек, що відповідає імовірності появи помилки. Значення імовірностей [6] та рангів для основних класів помилок користувача наведено в табл. 1.

Таблиця 1. Класи помилок

Клас помилки Характер помилки Кратність Імовірність Ранг wk

Еу Однократна транскрипція 1 Р1 = 0,5557 1

е2 Транспозиція 2 Р2 = 0,0664 4

Ез Вставка символу 1...П Рз = 0,1567 2

Е4 Пропуск символу 1...П Р4 = 0,1204 3

Е5 Двократна транскрипція 2 Рб = 0,0322 5

Е6 Багатократна транскрипція 3...П Р6 = 0,0686 6

Варіація Ак - деяка зміна слова А в межах к - го класу помилок. Наприклад, в класі Е1 варіаціями слова 5731 є слова 0731,1731, ..., 5031, 5131 ... і т.д. Кількість варіацій V/ слова Ау з довжиною п у символів визначається, як легко показати, таким чином:

VIу = (Я - 1)Пу ;

Vу = Я(Пу + 1) ;

Vу = Пу -1

V/ = (Я - 1)2спу - Пу +1

1=3

Для довільного слова з довжиною в діапазоні птіп тп кількість варіацій Ук визначимо як Ук = Уку при умові пу = еп1[пср], де епЩ означає ціле, найближче до середнього значення

Ансамбль К(к ■) - сукупність класів помилок, що коригуються і для яких генеруються

варіації Ак .

Значність помилок X - кількість слів словника, для яких виконується (Ак Вх ) = 0.

Справедливі такі твердження.

Твердження 1. Для будь-якої помилки Ах ^ Ау, що належить ансамблю К(к,), значність г > 0 .

Це означає, що для такої помилки існує по меншій мірі одне слово Вх , для якого ^Х(Ак ВХ ) = 0.

Для помилки, що не належить К(к,), цього може і не бути. Твердження цілком очевидне: якщо

відбувся помилковий перехід А ^ Ау з класу к, для якого генерується Ак , то одне і

із

зворотних спотворень Ау обов’язково збігається з істинним Ах, що, природно, має бути в

словнику.

Твердження 2. Для будь-якої помилки Ах ^ Ау можливі значення г > 1, і, відповідно, хибна

ідентифікація. Твердження легко доводиться від супротивного шляхом побудови контрприкладів для кожної пари класів помилок - істинної та хибної. Як ілюстрацію наведено такий контрприклад для к = (1,2,3)

С

Ах

5730

Ау

530

В

503 - хибна транспозиція 930 - хибна транскрипція

-► 5380 - хибне випадіння

5730 - правильне значення

П

п

ср

Загальний алгоритм ідентифікації - корекції помилки, що була виявлена на етапі контролю, полягає в послідовній генерації варіацій Ак ансамблю К (к-) у порядку збільшення рангу помилок,

перевірки виконання для кожної з них умови

ах (Акв,) = 0 для кожного із слів словника і, у

випадку позитивного результату, прийняття відповідного рішення щодо подальших дій. Конкретні алгоритми визначаються саме цими рішеннями, проте незалежно від них у кінцевому підсумку ми маємо один із наступних загальних результатів - подій:

АК > “ПАК

помилка правильно ідентифікована і автоматично (імовірність РАК) або

напівавтоматично (імовірність РПАК) виправлена;

ЛРК - ідентифікувати помилку не вдається і вона виправляється „вручну” (імовірність РрК);

ЛХК - помилка ідентифікована невірно і виправлена хибно (імовірність РХК).

Повна група всіляких подій включає ще випадок, коли на етапі контролю слова Ах по

словнику, що передує етапу ідентифікації - корекції, помилка не виявляється (імовірність Рнв).

Розглянемо рішення, що можуть прийматися при збігу чергової варіації з деяким словом словника.

3.1. Алгоритм 1

При першому ж збігу однієї з V = 2 V варіацій Ак із словом Вх процес генерації і порівнянь

к

припиняється, здійснюється автоматичне виправлення слова Ау по слову Вх. Граф зв’язку варіантів часткових подій з загальними результатами наведено на рис. 1.

■> 82

Прийняті такі позначення

подій:

Б0 - помилка відбулася;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

51 - помилка виявлена;

Б2 = Б1 - помилка не

виявлена;

Б11 - помилка належить

ансамблю К(к,);

$12 = ^1 - помилка не

належить ансамблю К(к,);

БЦ! - помилка однозначна (г = 1);

$112 = $1(111) - помилка багатозначна (г > 1);

Б122 - для помилки, що не належить ансамблю К(к,), не відбулося жодного випадкового збігу варіацій із словом словника (г = 0);

$121 = $і22 - для помилки, що не належить ансамблю К(к,), значність г ^ 1;

- фактичній багатозначній помилці відповідає перше з g додаткових випадкових збігів

(Б = 2 -1);

8(122 = ’§1121 .

З урахуванням наведених означень і вигляду графу рис. 1 можна записати такі логічні

вирази:

ЯАК =($, ЛЇ11 л811>)у($1 лБ,, л81(1 лв" )=[8, л5„]л[8(Ц v(s1^l1) л)];

о (1) = с л $ л 5(1) ■

^РК с1 л $11 л 8122 ;

= 51 л[(^1 л Д22’ л 5™ л )].

Вважаючи чисто випадковим характер процесу збігу варіацій із словами словника і враховуючи у зв’язку з цим, що імовірність Р(б,г,У) в точності g випадкових збігів V варіацій визначається відомою формулою біноміального розподілу

Р(&г,У) = СУ^(1-г)

У-Б

де г - імовірність збігу довільної варіації, для значень РДК, Р^, РХК, можемо записати

такі остаточні вирази:

(1 - г )• Е Р

(1 - г Г+[і - (1 - гГ]^

Р(Б,г,У -1)

У-1 1

Е

~ У-]

Е Р(Б,г,У -1)

Б=1

(1)

Ррк = (1 - г )• 1 - Е Рі 1(1 - г)

Ррх =(1 - г)

1 -ЕР |[1 -(1 -г)У]+ Ер[1 -(1 -г)У-1

1-

У-1 1

Е-------Р(Б,г,У -1)

б=1Б +1__________________

У-1

Е Р(Б,г,У -1)

Б=1

(2)

(3)

де ЕР] - сумарна імовірність появи помилок ансамблю К(к;і).

і

При одержанні останніх рівнянь враховано, що, якщо помилка належить до ансамблю К(к]), то, у відповідності з Твердженням 1, одна з V варіацій цілком визначено збігається із

словником. При цьому ще б варіацій (б = 1,...,У-1) можуть дати хибні збіги. Якщо помилка не

належить до ансамблю К(к), то, у відповідності з Твердженням 2, можливі випадкових

хибних збігів.

З урахуванням припущення п. 2.2 відносно рівномірного розподілу N слів словника в

■ П. п N

інтервалі 0 — q величина г дорівнює г = — .

а11

В табл. 2 наведено розрахункові значення РАК,РРК,РХК для ансамблів К1(к^) = (1,4),

К2 (к.|) = (1,2,3,4), К3(к.|) = (1,2,3,4,5). Значення розраховано для а = 10, пср = 6; при цьому

У(1,4) = V + У4 = 59, У(1,2,3,4) = 135, У(1,2,3,4,5) = 1345. Відповідно РУ = 0,6221, 0,8992 та 0,9314.

Таблиця 2. Результати розрахунків для алгоритму 1

K(kj) r P 1 AK P P PK P P XK д Pxk/ / r

10-2 4,6694 • 10"1 2,0677• 10"1 3,1629 -10"1 3,6228 • 10+1 3,1629E+1

10-3 6,0379 • 10-1 3,5588 • 10-1 3,9325 -10"2 4,7942 • 10+0 3,9325 • 10+1

K1 10-4 6,2024 • 10"1 3,7564 • 10-1 4,0234 -10"3 8,2932 -10"1 4,0234 • 10+1

10-5 6,2191 -10"1 3,7767• 10"1 4,0327-10"4 4,2314 -10"1 4,0327• 10+1

10"в 6,2208 -10"1 3,7788 • 10-1 4,0336 -10_э 3,8243 -10"1 4,0336 • 10+1

10-2 3,8680 -10'1 1,3505 • 10-2 5,8969 -10'1 6,7167 • 10+1 5,8969 • 10+1

10-3 8,1493 -10'1 8,2520 • 10-2 1,0155 -10'1 1,1542 • 10+1 1,0155 • 10+2

K 2 10-4 8,9027-10"1 9,8804 • 10-2 1,0829 -10"2 1,3198 • 10+0 1,0829 • 10+2

10-5 8,9830 -10'1 1,0060 • 10-1 1,0900 -10'3 2,2349 -10"1 1,0900 • 10+2

10-6 8,9911-10'1 1,0078 • 10-1 1,0907-10'4 1,1308 -10'1 1,0907• 10+2

10-2 5,4919 -10"2 3,1875 • 10-9 9,3508 -10'1 1,0649 • 10+2 9,3508 • 10+1

10-3 4,5088 -10'1 1,2775 • 10-2 5,3535 -10'1 6,0428 • 10+1 5,3535 • 10+2

3 K 10-4 8,5736 -10'1 5,7991- 10-2 8,4548 -10"2 9,5909 • 10+0 8,4548 • 10+2

10-5 9,2362 -10"1 6,7457• 10-2 8,9130 -10'3 1,0723 • 10+0 8,9130 • 10+2

10-6 9,3062 -10'1 6,8485 • 10-2 8,9609 -10'4 1,6951-10'1 8,9609 • 10+2

Оцінюючи характеристики алгоритмів (того, що розглядається і наступних) додатково приймемо до уваги, що окрім імовірності хибної корекції PXK , притаманної власне алгоритму, існує також імовірність хибного виправлення користувачем помилки і при „ручній” корекції. Позначимо відносну кількість хибних ручних корекцій через nXPK • Для Kj(kj) = 1,4 при r = 10-5 відносна

кількість помилок, що правильно автоматично виправляється, складає, як видно з табл. 2, PAK =

0,6220. Відповідна кількість помилок, що виправлялися б вручну без АІК, дали б внесок у загальну кількість невиправлених помилок, який дорівнює ПХРК 0,6220. Якщо припустити, що при ручному коректуванні виправляється 1 символ і імовірність викривити цей символ дорівнює статистичній імовірності викривлення символу при вводі інформації пс = 8,87 • 10-3 [б],то при відмові від застосування АІК додаткова імовірність проникнення помилок через „бар’єр” контролю склала б 8,87

• 10-3 • 0,6220 = 55 • 10-4. В той же час імовірність хибної корекції, що супроводить згадане значення PAK , дорівнює всього 4 • 10-4, тобто на порядок менше.

Узагальнюючи ці міркування, введемо до розгляду такий показник:

_Pxк + рХРК • Ppк

д \ ' (4) PXPK •(1 - r 1

Чисельник відношення (4) являє собою апостеріорну імовірність проникнення помилки через систему АІК, а знаменник - імовірність такої ж події при звичайному контролі і ручній корекції. Значення r0, що відповідає рівності 8 = 1, назвемо точкою рівноваги. З наведених міркувань можна

зробити висновок, що для r < r0 і відповідно 8 < 1 застосування методу АІК не тільки зменшує трудомісткість вводу, а й підвищує підсумкову достовірність.

В табл. 2 наведено значення 8, отримані в припущенні pXPK = 8,87 10-3. Значення точки рівноваги для ансамблів K1, K2, K3, одержані сумісним чисельним рішенням (2) - (4), складають відповідно 1,36 • 10-4; 7,4 • 10-5; 9,25 • 10-6.

З формул (1), (2), (3), що проілюстровані даними табл. 2, видно, що всі залежності P(r)

монотонні, причому для r ^ 0 PAK ^ Py, PPR ^ (1 - Py), PHB ^ 0.

P

Величина PXK також ^ 0, але повільніше, ніж PHB . Так, li^—XK для ансамблю K1 ~ 40,5 ,

r^0 r

для ансамблю K2 ~ 109 , для ансамблю K3 ~ 8,9б 102. Аналізуючи сукупність часткових подій S

для розглянутого алгоритму, можна відзначити, що сумарна частка помилок, що хибно коригуються, містить дві складові:

- частина помилок, що не коригуються і не належать ансамблю K1(kj) і які дають випадкові збіги варіацій із словником;

- частина помилок ансамблю K1(kj) при наявності власної багатозначності (z >11, що

приводить до хибних збігів по визначенню.

Позбутися від першої складової принципово неможливо. Зменшення ж частки помилок, що не коригуються, (перехід до ансамблів K2 і K3) дає у підсумку, як видно з табл. 2, всупереч

можливим очікуванням, зворотний результат за рахунок ще більшого підвищення другої складової.

На повне виключення другої складової спрямований наступний алгоритм (для часткового випадку K1(kj) = K1 і nx = const розглянутий в [4] - на жаль, з деякими допущеними неточностями).

3.2. Алгоритм 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Процес генерації варіацій ансамблю K1(kj) та сканування словника не зупиняється при першому ж збігу, а продовжується до встановлення факту наявності або ж відсутності однозначності. У випадку

г = 1 здійснюється автоматична корекція слова А за відповідною варіацією, якщо г = 0 або г > 1 то автоматична корекція не виконується і спотворене слово виправляється вручну.

Граф варіантів часткових подій подано на рис. 2.

8о -

1

81

■> 8,

81

8 (2) 8111

8 (2) 8 112

С (2) 8 121

8 (2) 8 122

1

Я

(2)

АК

1

Я

(2)

РК

Я

(2)

ХК

Рис. 2. Г раф часткових варіантів для алгоритму 2

У доповнення до загальних для всіх алгоритмів позначень подій 81;Б2 = 5>[,811,812 = ^

прийняті такі позначення:

З1/2 - помилка з ансамблю КДк^ однозначна;

с(2) = Т(2) .

°112 411 ’

З1(222) - помилка, що не належить ансамблю К(к(),однозначна;

8(2) _ 8(2) 8121 _ 8122

Як випливає з рис. 2, Я® _ 81 л8,1 л8(11;

Я'2> _ 8. л[(8„ л 812 л 8'22))];

81 л 8 л 52.

(2) Я ХК

Звідси, з урахуванням колишніх припущень,

р(2)

ҐДК

чУ-1

(1 - г) • ҐЕ-(1 - г)' ґРК) _ (1 - г)-К[1 -(1 - г )У-1 + (1 - ҐЕ) [1 - У г(1 - Г)1 РХК _ (1 - г)(1 - Ґ^ ) • Уг(1 - г)У .

(5)

(6) (7)

Таблиця 3. Результати розрахунків для алгоритму 2

К(^) г р 1 АК р 1 РК р 1 ХК 8 Рхк/ / г

10-2 3,4382 • 10"1 5,2418 • 10"1 1,2199 -10"1 1,4422 • 10+1 1,2199 • 10+1

10-3 5,8644 • 10"1 3,9156 • 10"1 2,099710"2 2,7615 • 10+и 2,0997• 10+1

*1 10"4 6,1844 • 10"1 3,7924 • 10"1 2,2163 10"3 6,2917 -10"1 2,2163 • 10+1

10-5 6,2173 • 10"1 3,7803 • 10"1 2,2283 10"4 4,0316 10"1 2,2283 • 10+1

10-6 6,2206 • 10"1 3,7791 • 10"1 2,2295 -10"° 3,8043 10"1 2,2295 • 10+1

10-2 1,2169 • 10"1 8,4143 • 10"1 2,6875 10"2 3,9104 • 10+и 2,6875 • 10+и

10-3 7,3687• 10"1 2,4571 10"1 1,6421 • 10"2 2,0992 • 10+и 1,6421 • 10+1

К 2 10"4 8,8148 • 10"1 1,1645 • 10"1 1,9662 10"3 3,3815 10"1 1,9662 • 10+1

10-5 8,9741 • 10"1 1,0238 • 10"1 2,0019 10"4 1,2495 10"1 2,0019 • 10+1

10-6 8,9902 • 10"1 1,0096 • 10"1 2,0055 10"5 1,0322 -10"1 2,0055 • 10+1

к 3 10-2 4,3715 • 10"8 9,9000 • 10"1 5,3518 10"8 1,0000 • 10+и 5,3518 -10"в

10-3 1,7362 • 10"1 8,0394 • 10"1 2,1448 10"2 3,2252 • 10+и 2,1448 • 10+1

10"4 7,8743 • 10"1 2,0273 • 10"1 9,7367 10"3 1,3006 • 10+и 9,7367• 10+1

K(k) r P AK P PK P PXK 8 Pxk/ / г

1Q-5 9,1589 • 1Q-1 8,2965 • 1Q-2 1, 1З26 1Q-3 2,1Q66 1Q-1 1,1326 • 1Q+2

1Q-6 9,2984 • 1Q-1 7,QQ47 • 1Q-2 1,1499 1Q-4 8,3Q1Q 1Q-2 1,1499 • 1Q+2

Як можна бачити з даних табл. 3, що відбиває результати розрахунків для умов, визначених в п. 3.1, значення Я^К менше, а Я^К більше, ніж відповідні значення табл. 2 (як і потрібно було

р

чекати). Зокрема, для г ^ 0 відношення —^—> 22,3 для К, ^ 20 для К2 та ^ 114 для

г

К3 (має місце деякий оптимум, що, втім, не має суттєвого значення). В загальному випадку

limPxK = (1 - г)(1 - Py )Vг(1 - г)-

0 У(1 - Ру ).

г^О г Г

Меншими для зіставних значень г є і відповідні значення 8 . Що стосується значень г0, то

для К1 г0 = 2,49-10-4, для К2 г0 = 4,01 • 10-4, для К3 г0 = 7,2-10-5, тобто точки рівноваги

досягаються при більших значеннях г (і це є, безумовно, позитивним моментом, бо більшим значенням г відповідає менша потрібна інформаційна надмірність). Разом з тим слід відзначити, що переваги, які одержуються у порівнянні з алгоритмом 1, дістаються ціною приблизно подвійного (у середньому) збільшення кількості варіацій, що генеруються і аналізуються.

З.З. Алгоритм З

Даний алгоритм спрямований на використання можливостей діалогового режиму вводу, а саме можливості напівавтоматичної корекції, в процесі якої користувач підтверджує або не підтверджує корекцію, що йому пропонується (характеристики алгоритму для часткового випадку K(kj) = K1,

nx = const розглянуті в [б]). В цьому випадку, при умові цілком безпомилкових дій користувача, можливість появи випадків хибної корекції була б виключена зовсім, - хоча і ціною додаткового навантаження на користувача у порівнянні з алгоритмами 1, 2. Граф варіантів часткових подій подано на рис. З.

S0

1

S1

■>S2

r

(3)

ПАК

R

(3)

PK

Прийняті такі позначення:

Б® - помилку ідентифіковано користувачем за т спроб;

8(32 = 3®(т) ■

Для підсумкових результатів маємо:

ЯПАк = Б1 ЛЯи лБіЗКт),

ЯЙ = Б, л 8,, л 5ЇЇ(т).

Звідси

PrnK = (1 - r) • Pc-n(m),

(8)

Рис. З. Г раф часткових варіантів для алгоритму З

Рр3к = (1 - г)(1 - РЕ )[1 - п(ш)]

(9)

де р(т) дорівнює [5]:

т-1 У-1 т

8 г%Г ^-°-1 - ^ т

р(ш) = 2 с^-іГе (1 - г)—1 + 2--------------------------7е ^-іГє(1 - г)у-®-1. (10)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ё=0 +1

Результати відповідних розрахунків для т = 2 наведено в табл. 4.

Таблиця 4. Результати розрахунків для алгоритму 3

К(к) г р р ПАК р рПК 3 (0,5) 3 (0,167)

*1 10-2 5,900 • 10-1 3,9995 • 10-1 7,0200 10"1 5,0352 • 10-1

10-3 6,2114-10"1 3,7786 • 10-1 6,8912 10"1 4,8207• 10"1

10-4 6,2203 10"1 3,7787• 10"1 6,8895 -10'1 4,8179 • 10"1

10-5 6,2209 -10"1 3,7790 • 10-1 6,8895 10-1 4,8179 • 10"1

10"в 6,2210 10"1 3,7790 • 10-1 6,8895 -10'1 4,8179 • 10"1

К 2 10-2 6,5191 Ю"1 3,3809 • 10-1 6,7075 10-1 4,5147 • 10"1

10-3 8,9300 -10'1 1,0600 • 10-1 5,5305 10-1 2,5539 • 10-1

10-4 8,9905 10-1 1,0085 • 10-1 5,5043 -10'1 2,5101 • 10"1

10-5 8,9919 10-1 1,0080 • 10-1 5,5040 10-1 2,5097• 10-1

10-в 8,9920 -10'1 1,0080 • 10-1 5,5040 -10'1 2,5097• 10-1

К 3 10-2 1,0984 10-1 8,8016 • 10-1 9,4453 10-1 9,0758 • 10-1

10-3 7,2814 -10"1 2,7086 • 10"1 6,3556 10-1 3,9285 • 10-1

10-4 9,2729 10"1 7,2613 • 10-2 5,3631 -10"1 2,2749 • 10"1

10-5 9,3135 10-1 6,8643 • 10-2 5,343 • 10-1 2,2418 • 10"1

10-в 9,3140 -10'1 6,8600 • 10-2 5,3430 10-1 2,2414 • 10"1

При визначенні д враховано, що виправлення ідентифікованих помилок підтверджується користувачем, і поява „вторинних” помилок принципово можлива, як і при чисто ручному виправленні, хоча і з меншою імовірністю. У зв’язку з цим для д можна записати вираз, що узагальнює (4):

д _ РЛК + р ХРК (Ргк + б ‘ РПАК ) (11)

р ХРК(1 - г) '

Коефіцієнт а визначає, наскільки напівавтоматична корекція менше схильна до вторинних помилок, ніж чисто ручна. У зв’язку з відсутністю в літературі прямих даних для д у розрахунках прийнято два гіпотетичних значення: 0,5 та 0,167. Перше значення враховує міркування відносно механізмів виникнення транскрипційних помилок людини [6], а друге випливає з гіпотетичного припущення, що імовірність вторинної помилки в режимі підтвердження в пх разів менше, ніж в

режимі чисто ручного коригування. Отже, в табл. 4 наведено дві групи значень д, зокрема, д(0,5) та д (0,167).

Що стосується значень точок рівноваги, то навіть для найбільших значень г, що розглядаються (г = 10-2), ми маємо, як видно з табл. 4, 8 < 1, тобто г0 < 10-2. Теоретично тут значення г0 близьке до 1, а практично це означає, що алгоритм 3 завжди забезпечує більш достовірні результати, ніж чисто ручна корекція без АІК. Вважати цей алгоритм, безумовно, кращим, ніж алгоритми 1, 2, заважає та обставина, що д3 по мірі зменшення г залишається практично

незмінним, в той час, як д1, д2 зменшуються також. Тобто існують (і це видно з табл. 2, 3, 4) такі значення г, для яких алгоритми 1, 2 дають кращі результати з точки зору результативної достовірності.

3.4. Алгоритм 4

Даний алгоритм є комбінацією алгоритмів 2, 3, що спрямована на підвищення значень Рак і зменшення РПак, Ррк у порівнянні з алгоритмом 3 за рахунок перебору всіх варіацій ансамблю,

що коректується. Якщо в результаті цього перебору з’ясується, що помилка однозначна, здійснюється її автоматичне виправлення. При багатозначній помилці користувачу пропонується, як і в алгоритмі 3, до т варіантів корекції, після чого помилка виправляється напівавтоматично або цілком вручну.

Граф варіантів подій наведено на рис. 4.

с

С (4) 3 122

Рис. 4. Г раф часткових варіантів для алгоритму 4

- помилка ансамблю К(к.|) однозначна;

с(4) _ Б(4) ;

Б112 411 ;

Б(42 - помилка, що не належить

ансамблю К(к^), однозначна;

Б(4) _ 4(4) ; б121 422 ;

(т) - помилка ідентифікована користувачем за т спроб;

С

(4)

1122

С'(41(ш).

Пропускаючи запис

загальних результатів, досить

ясний з рис. 4 і опису алгоритмів

2, 3, наведемо остаточні вирази для підсумкових імовірностей:

Р<4К = (1 - г) • Ру • (1 - г)У-1 ;

(12)

Р™* = (1 - г) • Ру • [1 -(1 - г)у-‘] • р(т); (13)

РРК = (1 - г) •{(І - Ру) • [1 - Уг (1 - г )У ] + Ру[1 - (1 - г)у-1][1 - р(т)]}; (14)

РхК = (1 - г) • (1 - Ру ) • V, (1 - г )У. (15)

Результати розрахунків для т = 2 наведено у табл. 5. Таблиця 5. Результати розрахунків для алгоритму 4_________________

К(к^) г р 1 АК р 1 ПАК р 1 РК р 1 ХК 8 (0.5) 8 (0.167)

*1 10'2 3,4382■ 10'1 2,6064■ 10'1 2,6354■ 10'1 1,2199 ■ 10'1 1,4290■ 10+1 1,4203■ 10+1

10'3 5,8644■ 10'1 3,5019 ■ 10'2 3,5654■ 10'1 2,0997■ 10'2 2,7440■ 10+и 2,7323■ 10+и

10"4 6,1844■ 10'1 3,5975■ 10'3 3,7565■ 10'1 2,2163 ■ 10'3 6,2737■ 10'1 6,2617 ■ 10'1

10'5 6,2173 ■ 10'1 3,6071 ■ 10'4 3,7767■ 10'1 2,2283■ 10'4 4,0298■ 10'1 4,0286■ 10'1

10'ь 6,2206■ 10'1 3,6081 ■ 10'5 3,7788■ 10'1 2,2295■ 10'5 3,8041 ■ 10'1 3,8040■ 10'1

К 2 10'2 1,2169 ■ 10'1 5,6279■ 10'1 2,7864■ 10'1 2,6875■ 10'2 3,6262■ 10+и 3,4369■ 10+и

10'3 7,3687■ 10'1 1,6048■ 10'1 8,5230■ 10'2 1,6421 ■ 10'2 2,0188 ■ 10+и 1,9653■ 10+и

10"4 8,8148 ■ 10'1 1,7627■ 10'2 9,8825■ 10'2 1,9662■ 10'3 3,2934■ 10'1 3,2347■ 10'1

10'5 8,9741 ■ 10'1 1,7786■ 10'3 1,0060■ 10'1 2,0019 ■ 10'4 1,2406■ 10'1 1,2347■ 10'1

10'ь 8,9902■ 10'1 1,7802■ 10'4 1,0078■ 10'1 2,0055■ 10'5 1,0313 ■ 10'1 1,0307■ 10'1

К 3 10'2 4,3715 ■ 10'1 1,0984■ 10'1 8,8016 ■ 10'1 5,3518 ■ 10'а 9,4453■ 10'1 9,0759■ 10'1

10'3 1,7362■ 10'1 5,9228■ 10'1 2,1166 ■ 10'1 2,1448■ 10'2 2,9288■ 10+и 2,7314 ■ 10+и

10"4 7,8743■ 10'1 1,4325■ 10'1 5,9477■ 10'2 9,7367■ 10'3 1,2289■ 10+и 1,1812 ■ 10+и

10'5 9,1589■ 10'1 1,5498■ 10'2 6,7467■ 10'2 1,1326■ 10'3 2,0291 ■ 10'1 1,9775■ 10'1

10'ь 9,2984■ 10'1 1,5616 ■ 10'3 6,8485■ 10'2 1,1499■ 10'4 8,2229■ 10'2 8,1709■ 10'2

З порівняння даних табл. 3, 4, 5 видно, що алгоритм 4 об’єднує позитивні риси алгоритмів, у певній мірі зменшуючи визначені недоліки. Значення точок рівноваги досягаються при г0 =2,5162И0'4 для К1, г0 = 4,1868И0'4 для К2, г0 = 7,7380И0'4 для К3, а значення д зменшується при подальшому зменшенні г , досягаючи менших співставних значень, ніж для алгоритмів 1, 2, 3.

4. Загальні висновки і заключні зауваження

Таким чином, нами розглянуті всі модифікації загального методу автоматичної ідентифікації та корекції помилок (АІК), що представляють практичний інтерес. Одержані вирази (1) - (15) та ілюстративні дані табл. 2 - 5 дають інформацію до прийняття рішення про доцільність використання АІК у конкретному випадку, про вибір ансамблю помилок, що коригуються, та алгоритму.

На основі викладеного зробимо такі висновки.

1. Розглянутий метод і конкретні алгоритми його реалізації можуть бути використані для зниження загальної трудомісткості підготовки та вводу інформації в ЕОМ. Використання методу дозволяє автоматично або з мінімальною участю користувача виправляти від 62% до 93% помилок,

в залежності від обраного ансамблю помилок, що коригуються. Більше того, для r < r0 метод

забезпечує і підвищення результативної достовірності. Зокрема, наприклад, для алгоритму 2 і

ансамблю К1, що містить помилки з сумарною імовірністю більше 0,62, r0 = 2,49 ■ 10'4. Якщо

врахувати, що величина r для багатьох інформаційних об’єктів сягає значень 10-5 - 10-6 , а часто і менше, то підвищення достовірності АІК можна вважати скоріше правилом, ніж виключенням.

2. Всі розглянуті алгоритми за відповідних умов мають право на існування і застосування, тобто вони є прийнятними у сенсі Парето. Так, алгоритми 3 і 4 не застосовні у режимі off-line. Алгоритм 1 має найгіршу коригуючу спроможність, проте потребує перебору приблизно вдвічі меншої кількості варіацій, ніж алгоритм 2. Відзначимо також, що при досить малих r (10-5 г 10-6) різниця між значеннями PAK для обох алгоритмів взагалі майже відсутня.

3. Алгоритм 4 краще ніж 3 (обидва потребують режиму on-line) по коректуючій спроможності і обсягу ручних коректувань, проте, як і алгоритм 2 у порівнянні з алгоритмом 1, потребує приблизно вдвічі більшого обсягу перебору. А в режимі on-line це особливо суттєво, тим більше, якщо N і V мають великі значення.

При малих значеннях розширення ансамблю для всіх алгоритмів підвищує коректуючу спроможність та результативну достовірність методу. Так, неважко показати, що для всіх алгоритмів

limд=д(0)~Ррк + бРпАК ■ м0

Для алгоритмів 1, 2, 4 д (0) ~ 0,378; 0,1; 0,068 відповідно для К1, К2, К3. Для алгоритму

3 і «=0,167 д(0) відповідно дорівнює близько 0,48; 0,25; 0,22.

4. Як випливає з попередніх зауважень, практичне застосування методу АІК, і зокрема, доцільний вибір алгоритму і ансамблю K(kj) залежить від багатьох факторів. Серед них

характеристики інформації, тобто словника (значення N, r, nx, n ), обчислювальні потужності ЕОМ, режим вводу і контролю - корекції (on-line, off-line) тощо. У зв’язку з цим, доцільним може бути таке рішення по програмній реалізації АІК. Програма АІК має включати:

- ядро з функцією генерації варіацій та сканування словника (з можливістю налаштування на ансамбль помилок, що коригуються);

- блок реалізації алгоритму прийняття рішення при співпадінні варіацій із словником;

- інтерфейсний блок, що забезпечує взаємодію з користувачем і комплексування з базовими засобами вводу СУБД.

5. Наприкінець відзначимо, що при наявних обмеженнях з боку обчислювальних потужностей суттєве значення може мати оптимізація організації і обробки словника (генерації варіацій і сканування). Це задача, що потребує окремого дослідження в рамках подальшого розвитку даного напрямку роботи.

1.Задача повышения качества информационной базы агентно-ориентированных интеллектуализованных СППР / Г.Е. Кузьменко, В.А. Литвинов, Ю.Г. Пилипенко, В.И. Ходак // Математические машины системы. -2002. - № 3. - С. б3 - 61.

2. Использование помехоустойчивого кодирования для защиты информации от ошибок оператора / И.М. Бояринов, А.А. Давыдов, Э.М. Мамедли, Ю.Б. Смеркис. - М.: АТ, 1983. - № 3. - С. б - 49.

3. Sethi A.S., Rajaraman V., Kenjaie P.S. An error-correcting coding scheme for alphanumeric data // Information Processing Letters. - 1988. - Vol. 7. - P. 72 - 77.

4. Дремов И.В., Литвинов В.А. Автоматическая коррекция ошибок на основе словаря-эталона // УСиМ. - 1989.

- № 3. - С. 77 - 80.

б. Литвинов В.А., Майстренко С.Я., Ступак Н.Б. Некоторые оценки вероятностных характеристик процесса автоматической идентификации ошибок пользователя на основе эталонного словаря // УсиМ. - 2001. - № 2. -С. 21 - 24.

6. Литвинов В.А., Крамаренко В.В. Контроль достоверности и восстановление информации в человекомашинных системах. - Киев: Техніка, 1988. - 200 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.