Критерии и модели оценки корректирующих свойств референтного орфографического словаря при автоматическом исправлении типовых ошибок пользователя

Литвинов В.А.; Майстренко С.Я.; Хурцилава К.В.; Костенко С.В.

УДК 681.3

В.А. ЛИТВИНОВ*, С.Я. МАЙСТРЕНКО*, К.В. ХУРЦИЛАВА*, С.В. КОСТЕНКО*

КРИТЕРИИ И МОДЕЛИ ОЦЕНКИ КОРРЕКТИРУЮЩИХ СВОЙСТВ РЕФЕРЕНТНОГО ОРФОГРАФИЧЕСКОГО СЛОВАРЯ ПРИ АВТОМАТИЧЕСКОМ ИСПРАВЛЕНИИ ТИПОВЫХ ОШИБОК ПОЛЬЗОВАТЕЛЯ

Институт проблем математических машин и систем НАН Украины, г. Киев, Украина Национальный университет пищевых технологий, г. Киев, Украина

Анотаця. Розглядаеться логгко-гмовгртсна модель корекцп виявлених помилок у системi nepeeip-ки орфографп, формуеться критерт оцтки коригувальних властивостей конкретного оpфогpафi-чного словника. Пропонуеться iмiтацiйна i аналтична модель для оцтки значень показниюв правильно! i помилковог корекцп по вiдношeнню до типових помилок користувача, наводяться резуль-тати моделювання для обраних словниюв роайськог та украгнськог мов. Обговорюеться взаемоз-в'язок мiж значеннями показниюв коригувальних i контролюючих властивостей. Ключовi слова: помилки користувача, спелл-чеюнг, оpфогpафiчний словник.

Аннотация. Рассматривается логико-вероятностная модель коррекции обнаруженных ошибок в системе проверки орфографии, формируется критерий оценки корректирующих свойств конкретного орфографического словаря. Предлагается имитационная и аналитическая модель для оценки значений показателей правильной и ложной коррекции по отношению к типовым ошибкам пользователя, приводятся результаты моделирования для выбранных словарей русского и украинского языков. Обсуждается взаимосвязь между значениями показателей корректирующих и контролирующих свойств.

Ключевые слова: ошибки пользователя, спелл-чекинг, орфографический словарь.

Abstract. The logical and probability model of detected error correction in spell checking system is considered; the criterion of assessment of the correction properties of the reference spelling dictionary is being formed. Simulation and analytical models for assessment of values of the right and false correction in relation to the typical typing errors is proposed, results of modeling for the selected dictionaries of the Russian and Ukrainian languages are given. The correlation between values of indicators of the correction and verification properties is discussed.

Keywords: typing errors, spell checking, reference spelling dictionary.

1. Введение

В настоящее время функция проверки орфографии является обязательной компонентой функционала текстовых редакторов, поисковых систем, почтовых клиентов и т.п. В [1] предложен возможный подход к улучшению контролирующих свойств референтного орфографического словаря (РОС), выраженных через относительное количество необнару-живаемых типовых ошибок. Вместе с обнаружением орфографических ошибок многие общие и специализированные текстовые редакторы и другие программы обработки текстов наряду с проверкой орфографии слов предлагают функцию автоматического и полуавтоматического исправления ошибок. Эффективность реализации такой функции должна определяться, с одной стороны, скоростью обработки ошибочного слова и поиска в РОС наиболее подходящего «правильного» слова для исправления, а с другой, качеством коррекции, связанным с возможной ошибочностью выбранного слова.

Известные доступные прикладные исследования в области автоматического исправления ошибок направлены в первую очередь на алгоритмические аспекты проблемы скорости и качества коррекции.

Краткий обзор основных алгоритмов автоматического исправления и нечеткого поиска (fuzzy string search) на основе оценки известных расстояний Левенштейна и Дамерау-Левенштейна [1, 2] приведен в [3, 4]. Типовым решением при выборе алгоритмов для кон-

кретной реализации является использование фонетических алгоритмов [5, 6]. Исследованиям различных модификаций фонетических алгоритмов и альтернативных алгоритмических подходов и систем [7, 8] посвящен ряд публикаций в постсоветских и зарубежных источниках. Вопросам же оценки потенциальных корректирующих свойств самих РОС, в контексте оценки ожидаемого качества коррекции, практически не уделяется внимания.

С целью частичного заполнения отмеченного пробела предлагаемая статья развивает подход [1, 9] в направлении моделирования и оценки характеристик, определяющих потенциальное качество конкретного словаря по отношению к автоматическому исправлению заданных типовых ошибок.

2. Общие положения. Логико-вероятностная модель коррекции

Примем следующие обозначения: А1 - словоРОС (7 = 1..К)\

А. - слово РОС, искаженное ошибкой;

d(А, А.) - функция расстояния, определяющая в некоторой метрике орфографическую близость слова А. и слов РОС (/ = ;

^ (А], А.) - функция предварительного выбора, определяющая множество слов РОС, для которых (1(АрА)«1тах ;

А' - слова РОС, для которых А^ = ттй?(А|, Л); 1 = 1..г; г = 0,1,..., для г = 0

таких слов не найдено;

1''2(А1, —>А.) функция предпочтения, определяющая выбор из 2 слов конкретного

слова А1 для корректировки (замены) ошибочного слова А..

В результате корректировки ошибочного слова А. возможно следующее:

- ошибка А. —> А; не обнаружена (финальное событие , вероятность исхода

0]но );

- ошибка А. —»А. обнаружена, (событие ) найдено одно или более слов-кандидатов А''(т> 1) , функция /,'2(А'гА1) определила правильное решение, и корректировка выполнена правильно (финальное событие , вероятность исхода 0 .як);

- ошибка А] —> А] обнаружена, г > 1, функция Р2 (А'1 —» А.) определила ошибочное решение, и корректировка выполнена ложно (финальное событие , вероятность исхода

- ошибка А. —> А/ обнаружена, не найдено ни одного (г = 0) слова-кандидата, для которого корректировка не производится (финальное событие Л'/н;., вероятность исхода ).

Цель построения и анализа конкретной логико-вероятностной модели заключается в определении для конкретного РОС значений вероятностей соответствующих исходов, определяющих корректирующие свойства РОС для отдельных слов и словаря в целом.

При реализации процесса коррекции возможны различные решения, определяющие выбор функций расстояний и предпочтений. Для оценки свойств РОС конкретизируем обобщенную модель (рис. 1) для следующих условий.

1. Определяя функцию предварительного выбора, разделим всевозможные ошибки А. на две группы: ансамбль «корректируемых» специфических ошибок К, для которых

б/ < б/гт1;|,., и остальные ошибки («некорректируемые», или произвольные). Традиционно (и

в соответствии с составляющими показателя расстояния Дамерау-Левенштейна) отнесем к ансамблю К типовые орфографические ошибки пользователя - однократные транскрипции Е , вставки £2 и удаления Е символа, смежные транспозиции Е .

2. Примем

О для А'! = А'г где А'! есть вторичное

искажение (вариация 1,9 )словаА , (1)

б/.

в противном случае

Рис. 1. Обобщенная модель событий

Равенство с/0(А^.,А^) = 0 означает, что вариация А'. совпадает со словом А,. В рамках принятых условий расстояние Дамерау-Левенштейна минимально для слов А\, с которыми совпадает вариация А', в классах Е1 - Е4 ансамбля корректируемых ошибок.

3. Для функции предпочтения определим наихудшее решение — равновероятный выбор из г совпадений (например, выбор первого же совпадения). Поскольку генерируются все вариации ошибочного слова, по крайней мере, одно совпадение здесь обеспечено, то есть г >1.

Логико-вероятностная модель, конкретизированная для принятых условий, приведена на рис. 2.

Приняты следующие дополнительные обозначения для частных событий:

£ .0 и £;но - ошибка обнаружена / не обнаружена;

и = 8 / | - ошибка принадлежит / не принадлежит ансамблю К соответственно;

- ошибка принадлежит классу Ек;

£ .п и = - ошибка однозначна (г = 1) / неоднозначна (г > 1);

8кпгЛ - ошибка класса Ек корректируется однозначно правильно;

~~ фактической многозначной ошибке класса Ек соответствует первое (/ = 1) из

совпадений;

^122 = ^ - фактической многозначной ошибке класса к соответствуют совпадения с I = 2...2.

7

.

./"'■'1

«5.

¥ И

5,,

Таким образом,

е>к гу с*к су к

о , = о . Ло, Ло,,,

]ПК1 }о /1 /11'

= А Л ) V А ^ л Л )) =

V /о /1 /11-' V /о /1 /12 /121-'

(^о А ) Л (5*! V (£*, л )),

ГУ к сук . гт/г _ ГУ к _ гт/г

я =\Л/я*

я/', л?: ^ /я/', /л?:

Рис. 2. Логико-вероятностная модель определения корректирующих свойств РОС моделирования

3. Натурно-имитационная модель коррекции

Натурно-имитационное моделирование процесса искажения и коррекции слов РОС основано на генерации для каждого слова А возможных корректируемых ошибок ансамбля К,

на проверке обнаруживаемости ошибки, генерации для каждой ошибки возможных вариантов коррекции (обратных искажений) и поиске совпадений в словаре. При этом вероятности промежуточных и финальных событий определяются де-факто для конкретного словаря через соответствующие количества совпадений. Схема моделирования приведена на рис. 3.

Дополнительные обозначения на рис. 3 имеют следующий содержательный и количественный смысл (через ^ндекс обозначены вероятности событий 8кнй,КС схемы (рис. 2):

\'/Ь - суммарное количество совпадений вариаций А/Ь ошибочного слова А ,к, искаженного обнаруживаемой ошибкой 5 класса Ек > 1);

л :Ь =- - вероятность правильной коррекции обнаруживаемой ошибки 5 класса

V

Ек в слове А ;

2 г№

(У],,,,,. - 71.к = ^ 7т ,кх - вероятность правильной коррекции произвольной обнару-

¥}к ^

живаемой ошибки класса Ек в слове А . Здесь - суммарное количество всевозможных обнаруживаемых ошибок класса Ек в слове А/;

О,,,пг — ^ п,к 1]; ~ вероятность правильной коррекции обнаруживаемых ошибок

к

в слове А; С^Рк) -

к

0-опК = ~ ^ ж, - вероятность правильной коррекции обнаруживаемых ошибок ансамбля К в целом по словарю.

Ж

<Ек)

-С

'(Ам)

Рис. 3. Схема моделирования

Из очевидных соображений для обнаруживаемых ошибок и принятых допущений 0олк=Р-0опк И для всех ошибок Опк <0опк(\-0ио),0ш = 0ОЛК(1-0НО),0НК =1 -Р.

Примеры возможных частных исходов при определении значений л ^ для конкретного слова А1 := арак :

А/Ь := мрак, ошибка не обнаруживается;

А/ь := аеак, А1к, ■— {арак}, г = \, ошибка корректируется однозначно;

А/Ъ := прак, А/1:,г := {арак, брак, мрак, трак, рак, парк} ,2-6, при случайном выборе ошибка корректируется правильно с вероятностью 1/6 и ложно с вероятностью 5/6;

А/Ь := аарк , А]к, := {барк, карк, марк, парк, тарк, арак}, г = 6, при случайном выборе ошибка корректируется правильно с вероятностью 1/6 и ложно с вероятностью 5/6;

Поскольку при моделировании генерируются все возможные корректируемые ошибки и все варианты их исправления, результаты моделирования (в частности, значения вероятностей <2пк и ) полностью характеризуют корректирующие свойства данного конкретного РОС.

Моделирование проведено для набора словарей и значений р, принятых в [1, 9] в

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

контексте анализа их контролирующих свойств (дисфункции обнаружения ошибок). В связи с относительно высокой вычислительной трудоемкостью процесса генерации ошибок и вариантов их исправления обработке подвергались случайным образом сформированные выборки объемом 20000 слов (с оценкой соответствующих доверительных вероятностей). Результаты моделирования приведены в табл. 1.

Таблица 1. Результаты моделирования для натурно-имитационной коррекции

Словарь QonK Qолк QnK Q« QH0 Q„K

«Словарь русской литературы» Ы = 161730 0,7549 0,1443 0,7410 0,1416 0,0184 ~01

«Словарь Лопатина» N = 150213 0,8282 0,0709 0,8233 0,0706 0,0060 II

«Словарь Зализняка» N = 92555 0,8281 0,0710 0,8236 0,0706 0,0054 II

«Словарь Лопатина» усеченный Ж = 84575 0,8518 0,0474 0,8483 0,0472 0,0038 II

Украинская версия усеченного «Словаря Лопатина» N = 84575 0,8610 0,0382 0,8585 0,0381 0,0028 II

Доверительные интервалы для получения средних общих значений QmK, Q0K, вычисленные на основе допущения о близком к нормальному закону распределения частных значений QjonK, QjoJlK с вероятностью 0,99, составляют ±0,5% для словаря «Русской литературы», ±0,3% для словарей «Лопатина» и «Зализняка» и ±0,2% для усеченных словарей.

Из данных табл. 1 видно, что корректирующие свойства, так же, как и контролирующие, заметно различаются для разных словарей. Так, для словаря «Русской литературы» из 1000 произвольных ошибок не обнаруживается 18,4 ошибок, правильно корректируется 741 ошибка и ложно - 141 ошибка. Соответствующие значения для усеченного словаря Лопатина составляют 2,5, 850 и 47.

Разброс значений QnK, Qx для разных словарей объясняется двумя факторами. С одной стороны, словарь меньшего объема при прочих равных условиях должен обладать более высокими значениями Q и меньшими Q за счет большего значения относитель-

^пк ^лк

ной избыточности представления слов и соответствующего уменьшения возможностей совпадения генерируемых вариантов исправления ошибок с реальными словами словаря. Так, для словаря Лопатина объемом 92555 слов значение QnK =0,8233, а для усеченного (случайным образом) этого же словаря объемом 84575 QnK =0,8483. С другой стороны, играют роль и чисто лингвистические факторы (язык, тезаурус). Так, для украинской версии усеченного словаря Лопатина, имеющего тот же объем и тот же набор слов, что и русскоязычная версия, QnK =0,8594. В целом, как видно из данных табл. 1, существует явно

высокая степень корреляции между значениями QH0 и QK. Этот фактор в сочетании с отмеченным влиянием относительной избыточности словаря дает основания для следующих предварительных выводов:

- словарь, оптимизированный (по Парето) в отношении контролирующих свойств [1], обладает и лучшими корректирующими свойствами;

- показатель относительной избыточности словаря может быть использован в качестве основы для оценки его корректирующих свойств.

4. Натурно-аналитическая модель корректирующих свойств

Остановимся подробнее на смысле упомянутого в предыдущем разделе понятия «относительная избыточность словаря» и его количественной связи с контролирующими и корректирующими свойствами. Рассмотрим идеализированный гипотетический словарь объемом N слов одинаковой длины n символов в алфавите q .

На рис. 4 показана линейная модель такого словаря, в которой д" «активных» ячеек обозначают всевозможные значения комбинаций " символов, а выделенные ячейки Л. обозначают комбинации, соответствующие реально существующим словам (у = 1.. .Щ .

■'1 ' '2 1

Л'

О

Рис. 4. Линейная интерпретация словаря

Акт проверки «правильности» слова А. , искаженного произвольной ошибкой А] —> А], можно рассматривать здесь как акт опустошения ячейки А/ и «бросания» комбинации А. на регистр ячеек. В предположении случайного характера распределения активных ячеек в интервале 0 -1 вероятность попасть комбинацией А . в занятую ячей-

а относительную избыточность словаря С можно оценить как

ку равна г =

А/

Г

N

С = 1 - г = 1--.

Я"

Чем больше N при прочих равных условиях, тем больше г , и тем хуже и контролирующие свойства (выше вероятность случайного совпадения ошибочного слова с реальным существующим), и корректирующие свойства (больше количество равноправных вариантов корректировки ошибочного слова, в частности, вариантов полного совпадения).

Для рассматриваемой функции (1) и гипотетического идеализированного словаря возможна вероятностная оценка количества случайных совпадений произвольного ошибочного слова (генерируемой вариации) со словарем на основе модели независимых испытаний Бернулли и соответствующей формулы биномиального распределения:

(2)

где Р(g, т,¥) - вероятность получения в точности g случайных совпадений в результате V испытаний, в каждом из которых вероятность благоприятного исхода равна г ; С - число сочетаний из V по g .

Однако для реального словаря такая оценка значений 2ик, является слишком грубой, так как испытания не являются однородными: генерируемые вариации так же, как и слова словаря, имеют разную длину и различную "лексикографическую уязвимость" в смысле возможностей взаимных совпадений.

Для повышения степени адекватности модели (2) регистр (рис. 4) следует рассматривать в двух измерениях (номер ячейки и длина ячейки), а значения V и г - индивидуально для каждого слова словаря и вариации ошибочного слова.

Предположим заданными вероятность Д. - совпадения со словарем ошибочного

слова и вероятность Д . совпадения вариации ошибочного слова А ,. Тогда в соответствии

с логическими выражениями для событий рис. 2 и модели испытаний (2) мы можем записать следующие выражения для вероятностей частных событий:

о,но = АгР

1

Л',-1 ^ 1

=(1 - ) • т - а, Г +1 —- ■ р(я, ^-П],

8 + 1

=а ■- ) ■■ р■ X ■■■ а, , V, -1)

8-

01ИК={1-01ИО){\-Р).

При выводе выражений учтено, что из г возможных совпадений проверяемых слов одно определенно правильное, соответствующее искаженному слову А., и 8 случайных совпадений - ложные. Правильная коррекция имеет место в случае, если g = О (вероятность события равна Р(0,Д2/, \/< -1) = (1 - Д2/) 1) или если из +1 вариантов будет сделан

1

правильный выбор (вероятность

£ + 1

Для определения величин Д. и Д, рассмотрим следующую принятую интерпретацию зависимости значений вероятности Д . (х) совпадения со словарем х раз искаженного типовой ошибкой слова А. (рис. 5).

Рис. 5. Графическая интерпретация зависимости значений вероятности совпадения со словарем

Если х = 0, Д0; = 1, так как неискаженное слово совершенно определенно совпадает со словарем.

Если х = 1, величина Д. равна относительному количеству совпадений слов А, ,

искаженных типовыми ошибками. Эта величина определяется «прямым» путем с помощью имитационной модели [ 1, 9].

Если л' = т/ »1, величина Д. асимптотически стремится к значению

где N п. - количество слов словаря длиной п . ±1.

На основании предыдущих рассуждений для х = 2 положим

где коэффициент у определяет крутизну падения кривой Д.;(л"). Для расчетов по модели принято

А, =■ *

_ _к_

где - количество совпадений со словарем слова Л;, искаженного типовой ошибкой Ек;

¥(п.) = \/1 - суммарное количество всевозможных типовых ошибок слова длиной п, символов;

+ Г2(и,.) Г3(и.)

где Л/(/7;) , N(11^ -1) , N(11^ +1) - фактическое количество слов длиной п ,, п/ - 1, п/ + 1, у = 0,87.

В выражении для ") учтено изменение длины слова Л;, искаженного пропусками и вставками символов, а значение коэффициента у подбиралось в процессе моделирования (по траектории 0,9 —> 0,88 —» 0,86 —» 0,87 ).

Результаты моделирования приведены в табл. 2.

Таблица 2. Результаты моделирования для натурно-аналитической коррекции

Словарь Оопк Опк Ок О„о

«Словарь русской литературы» N = 161730 0,7490 0,7355 0,1470 0,0184

«Словарь Лопатина» N = 150213 0,8373 0,8323 0,0628 0,0600

«Словарь Зализняка» N = 92555 0,8383 0,8338 0,0614 0,0054

«Словарь Лопатина» усеченный N = 84575 0,8608 0,8576 0,0394 0,0038

Украинская версия усеченного «Словаря Лопатина» N = 84575 0,8698 0,8674 0,0300 0,0028

Как видно из данных табл. 2, результаты расчетов по аналитической модели близки к результатам табл. 1. Так, отклонение значений основного показателя корректирующих свойств (ОпК) составляет 0,75% для «Словаря русской литературы» и не превышает 1,2% для остальных словарей. При этом обработка словаря требует на порядки меньше времени.

Так, для используемого маломощного одноядерного компьютера и последовательной схемы моделирования время обработки одного слова по имитационной модели 1 составляло 6 с, а по аналитической модели - 0,04 с. Кроме того, отклонение могло бы быть еще меньше (до 1% ) при более тщательном подборе значений у . Из сравнительных данных испытаний и их интерполяционных оценок следует, что оптимальное значение у, соответствующее минимальному суммарному отклонению, находится в пределах у = 0,865 - 0,867 . Существенно, что отклонение результатов мало зависит от лингвистической структуры и содержания словарей, их объемов и рассматриваемых языков. Подобная «устойчивость» дает основания для подтверждения правомерности принятого подходя к построению аналитической модели. В свою очередь, это означает, что аналитическая модель, может быть положена в основу оценки корректирующих свойств по отношению к более сложным ошибкам, находящимся на расстоянии Дамерау-Левенштейна большем, чем типовые ошибки.

5. Выводы

1. Представленные модели могут быть положены в основу инструмента сравнительной оценки потенциальных корректирующих свойств конкретного орфографического словаря по отношению к типовым ошибкам пользователя. При этом аналитическая модель может служить для предварительных решений, а имитационная - для уточненных оценок, полнота которых определяется учетом всех возможных типовых ошибок и вклада каждого слова в итоговое значение QnK. При известных вероятностях искажения слова A. этот вклад может быть соответствующим образом взвешен.

2. Существует высокая степень корреляции между значениями показателей контролирующих и корректирующих свойств (QH0 и QnK). С одной стороны, это дает основания полагать, что словари, улучшенные в отношении контролирующих свойств [1], обладают и лучшими корректирующими свойствами. С другой, говорить о некоем общем показателе «орфографической уязвимости» словаря по отношению как к отдельным типовым ошибкам, так и их кратным комбинациям. Если принять за основу принятую интерпретацию зависимости значений вероятности совпадения со словарем от кратности типовой ошибки (рис. 4), интерпретацию, правомерность которой предварительно подтверждают отмеченные в разд. 3 результаты моделирования, то в качестве такого общего показателя могло бы быть принято значение вероятности совпадения произвольного слова, искаженного однократной типовой ошибкой. Количественная оценка возможной связи этого показателя с корректирующими свойствами словаря при иных функциях F, F нуждается в отдельном исследовании.

СПИСОК ИСТОЧНИКОВ

1. Литвинов В.А. Дисфункция референтного словаря системы проверки орфографии и подход к ее снижению / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичш машини i системи. -2017. - № 2. - С. 39 - 48.

2. Расстояние Дамерау-Левенштейна [Электронный ресурс]. - Режим доступа: https://щ.wikipedia.org/wiki/Расстояние Дамерау - Левенштейна.

3. Нечёткий поиск в тексте и словаре [Электронный ресурс]. - Режим доступа: https://habrahabr.ru/post/114997/.

4. Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами PHP [Электронный ресурс]. - Режим доступа: https://habrahabr.ru/post/342434/.

5. Фонетические алгоритмы [Электронный ресурс]. - Режим доступу: https://habrahabr.ru/post/114947/.

6. Phonetic Algorithms [Електронний ресурс]. - Режим доступу: https://deparkes.co.uk/2017/12/01/phonetic-algorithms/.

7. Hodge V.J. A comparison of standard spell checking algorithms and a novel binary neural approach / V. J. Hodge, J. Austin // IEEE Transactions on Knowledge and Data Engineering. - 2003. - Р. 1073 -1081.

8. de Amorim R.C. Effective Spell Checking Methods Using Clustering Algorithms [Електронний ресурс] / R.C. de Amorim, M. Zampieri. - Режим доступа: http://www.aclweb.org/anthology/R13-1023.

9. Литвинов В.А. Оценка контролирующих свойств базового словаря допустимых слов в системе автоматического обнаружения ошибок пользователя / В.А. Литвинов, С.Я. Майстренко, К.В. Хурцилава // Математичш машини i системи. - 2014. - № 2. - С. 65 - 70.

Стаття над1йшла до редакцп 12.04.2018

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Литвинов В.А., Майстренко С.Я., Хурцилава К.В., Костенко С.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Литвинов В.А., Майстренко С.Я., Хурцилава К.В., Костенко С.В.