Научная статья на тему 'Оценка контролирующих свойств базового словаря допустимых слов в системе автоматического обнаружения ошибок пользователя'

Оценка контролирующих свойств базового словаря допустимых слов в системе автоматического обнаружения ошибок пользователя Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
93
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОШИБКИ ПОЛЬЗОВАТЕЛЯ / СПЕЛЛ-ЧЕКИНГ / ДОСТОВЕРНОСТЬ ДАННЫХ / ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / USER ERRORS / SPELL-CHECKING / THE ACCURACY OF THE DATA / SIMULATION MODELING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Литвинов В. А., Майстренко С. Я., Хурцилава К. В.

Разработана имитационная модель искажений слов и обнаружения ошибок пользователя. Приводятся результаты моделирования для словарей русского и украинского языков. Получены оценки реальных контролирующих свойств словаря, позволяющие решить задачу оценки его качества.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Литвинов В. А., Майстренко С. Я., Хурцилава К. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A simulation model of distortion of words and detection of user errors has been developed. The simulation results for dictionaries of the Russian and Ukrainian languages have been demonstrated. Assessment of the real controlling properties of the dictionary, allowing to evaluate its quality, has been made.

Текст научной работы на тему «Оценка контролирующих свойств базового словаря допустимых слов в системе автоматического обнаружения ошибок пользователя»

УДК 681.3

В.А. ЛИТВИНОВ*, С.Я. МАЙСТРЕНКО*, К.В. ХУРЦИЛАВА*

ОЦЕНКА КОНТРОЛИРУЮЩИХ СВОЙСТВ БАЗОВОГО СЛОВАРЯ ДОПУСТИМЫХ СЛОВ В СИСТЕМЕ АВТОМАТИЧЕСКОГО ОБНАРУЖЕНИЯ ОШИБОК ПОЛЬЗОВАТЕЛЯ

Институт проблем математических машин и систем НАН Украины, Киев, Украина

Анотаця. Розроблено гмгтацШну модель спотворень слгв i виявлення помилок користувача. Наво-дяться результати моделювання для словниюв ростськог та украгнськог мов. Отримано оцтки реальних контролюючих властивостей словника, що дозволяють вирШити задачу оцтки його яко-стi.

Ключовi слова: помилки користувача, спелл-чектг, достовiрнiсть даних, iмiтацiйне моделювання.

Аннотация. Разработана имитационная модель искажений слов и обнаружения ошибок пользователя. Приводятся результаты моделирования для словарей русского и украинского языков. Получены оценки реальных контролирующих свойств словаря, позволяющие решить задачу оценки его качества.

Ключевые слова: ошибки пользователя, спелл-чекинг, достоверность данных, имитационное моделирование.

Abstract. A simulation model of distortion of words and detection of user errors has been developed. The simulation results for dictionaries of the Russian and Ukrainian languages have been demonstrated. Assessment of the real controlling properties of the dictionary, allowing to evaluate its quality, has been made.

Keyword: user errors, spell-checking, the accuracy of the data, simulation modeling.

1. Введение

Основой системы «проверки правописания» при вводе естественно-языковых данных (в общем случае - нерегулярных алфавитно-цифровых кодов) является базовый словарь допустимых слов (БС). Контролирующие свойства БС определяются вероятностью необнаружения ошибки в результате случайного совпадения искаженного слова с некоторым посторонним допустимым словом. Грубая оценка значения Р<0) такой вероятности может быть основана на предложении о случайном характере искажений входного слова и сопоставлении мощности ((, запрещенных (отсутствующих в БС) комбинаций символов и (

допустимых [1, 2]:

» Л, (1)

( + ( ч"

где N - количество слов БС, д - алфавит символов БС, П - среднее количество символов в слове.

Для БС с целенаправленно введенной избыточностью и относительно равномерным (случайным) распределением N реальных слов среди ч" всевозможных значений комбинаций П символов в алфавите д, в частности, для кодовых справочников, оценка (1) может быть достаточно близка к истине. Для естественно-языковых слов (слов в текстовом редакторе, ключевого слова в поисковой системе и т.п.) и специфических искажений, вызванных типовыми ошибками пользователя, допущения о случайном характере распределений значений слов и их возможных искажений не выполняются. Здесь наиболее вероят-

© Литвинов В. А., Майстренко С.Я., Хурцилава К.В., 2014 ISSN 1028-9763. Математичш машини i системи, 2014, № 2

ные простые искажения могут дать значительно большее количество ложных совпадений с реально существующими словами и, соответственно, намного худшую результативность контроля.

В статье рассматриваются вопросы оценки реальных контролирующих свойств БС (на примере словарей русского и украинского языков) и возможные пути их улучшения.

2. Имитационная модель искажений и обнаружения ошибочных слов

Введем исходные понятия, термины и обозначения. Под общей диагностической (контролируемой) способностью словаря с будем понимать относительное количество ошибок (всевозможных искажений слов), не совпадающих ни с каким другим допустимым словом, то есть обнаруживаемых ошибок.

Частную диагностическую способность ск определим как относительное значение

с для ошибок определенного класса к. Соответственно под общей и частной дисфункцией словаря будем понимать показатели р и рк, определяющие относительные количества

недиагностируемых ошибок. Введенные показатели связаны следующими очевидными соотношениями: с = 1 — р, ск = 1 — рк. Структура имитационной модели, предназначенной

для моделирования процесса искажений, обнаружения ошибочных слов для заданного словаря, и определения значений рк , приведены на рис. 1.

Очередное слово

Aj П ] =

Модуль формирования ошибочных слов

БС

Исследуемые ошибки

Модуль подготовки БС --

Исходный словарь Рис. 1. Структура имитационной модели

На рисунке приняты следующие обозначения:

Л. - множество ошибок класса к в слове /, V, - мощность множества А, . Полновыборочные (/ = 1...Ж) эксперименты проведены со словами трех словарей

русского языка («Словарь Зализняка» [3] (СЗр - русский, СЗу - украинская версия), «Словарь Лопатина» [4] (СЛр - русский, СЛу - украинская версия), «Словарь русской литературы [3] (СРЛр - русский, СРЛу - украинская версия) и адаптированными украино-

язычными версиями указанных словарей, сформированными путем русско-украинской конвертации. Исследованы следующие основные классы типовых ошибок тайпинга: однократные транскрипции (к = 1), добавление символа (к = 2), выпадение символа (к = 3),

транспозиция соседних символов (к = 4). Для ориентировочных оценок вероятностей Рк

ошибок этих классов взяты значения, приведенные в [5]. Результаты моделирования приведены в табл. 1, 2.

Таблица 1. Словари русского языка

к Рк Словарь Зализняка N = 92555 п = 9,61 Словарь Лопатина N = 150213 п = 10,06 Словарь русской литературы N = 161730 п = 8,44

Ук Р к102 ук Р к102 ук Р к102

1 0,56 307,6 0,39 321,8 0,41 269,9 1,2

2 0,16 350,2 0,06 364,8 0,07 311,4 0,27

3 0,12 9,6 2,14 10,06 2,16 8,4 8,8

4 0,06 8,6 0,95 9,06 1,55 8,9 1,2

Рк 0,9 - 0,54 - 0, 6 - 1,84

Таблица 2. Словари украинского языка

к Словарь Зализняка N = 84575 п = 9,49 Словарь Лопатина N = 135401 п = 9,93 Словарь русской литературы N = 1292440 п = 8,31

ук Р к102 ук Рк102 ук Р к102

1 0,56 313,1 0,28 327,7 0,28 274,2 1,0

2 0,16 356,6 0,04 371,6 0,04 316,5 0,15

3 0,12 9,5 1,39 9,93 1,40 8,3 5,2

4 0,06 8,5 0,91 8,93 1,22 7,3 1,1

Рк 0, 9 - 0,38 - 0,41 - 0,77

Данные, приведенные в таблицах, иллюстрируют следующие основные особенности контролирующих свойств исследованных словарей.

1. Дисфункция контроля ошибок рассмотренных классов значительно (на порядки)

(0) ГЛ

превышает идеализированные значения р '. Это является следствием того, что кластеры (цепочки взаимных искажений слов) типа <код> ^ <пол, мол, гол, фол, вол, тол, дол > дают гораздо большее количество совпадений со словарем, чем, например, случайный маловероятный гипотетический переход <кол> ^ <крах>. В результате контролирующая способность словарей как русского, так и украинского языка, значительно ниже, чем можно было бы предположить, исходя из (1).

2. Различные словари имеют заметно отличающиеся контролирующие свойства. Так, из 1000 случайных ошибочных слов из словарей, искаженных ошибками 1, 2, 3, 4 (в указанной пропорции), в среднем не обнаруживаются 5,4 ошибки для Словаря Зализняка и 18,4 ошибки для Словаря русской литературы. Исходя из полученных данных, можно предположить, что разброс значений рк для исследованных словарей определяется как

чисто лингвистическими факторами (язык, структура), так и разницей в объемах. При этом необходимо отметить, что уменьшение объема словаря при прочих равных условиях про-гнозированно должно вести к уменьшению рк за счет явного увеличения относительной

избыточности представления слов и соответствующего уменьшения возможностей случайных совпадений ошибочных слов с допустимыми. (Это свойство отмечено и иллюстрировано примерами в [2]). С другой стороны, исключение из словаря слов с ненулевой востребованностью увеличивает вероятность ложных сообщений об ошибках.

Для оценки зависимости контролирующих свойств словаря от указанных факторов следует разделить их совместное влияние на значения рк.

3. Непрерывно-дискретная модель БС

Непрерывно-дискретная модель БС, построенная в развитие анализа отмеченных выше особенностей, основана на допущении об экспоненциальном характере функции р( х),

аппроксимирующей плотность гипотетического распределения востребованности слов БС (вероятностей обращения к словам):

р (х) = ск ехр (-кх),

где с - нормирующий множитель. Определяя с из уравнения

N

| ск ехр (-кх) бх = 1,

0

получаем

, Л к ехр (-кх)

Р( х ) =-т-—.

У ; 1 - ехр (-к^

Значения к определяют крутизну падающей функции р( х) и определяются здесь из уравнения

aN

| р(х)бх = Р, (2)

0

где а и Ь - параметры, соответствующие принципу Парето с принятыми количественными соотношениями (а< 1, Р< 1, а + Р = 1).

Смысл значений параметров а и Р заключается в следующем: (100 а) процентов слов БС востребованы в (100 Р) процентов случаев обращений к БС. Для соотношений 20/80 и 10/90 значения а =0,2; 0,1 и р =0,8; 0,9.

Решение (2) для указанных значений а, Р дает значения к » ^^ и соответ-

ственно.

Назовем «усеченным» исходный БС, из которого исключаются А. слов (порция усечения) с наименьшими вероятностями обращений р,:

р] = | р(х) бх, j =.

7-1

А, = i8N, 1=1,2,....,

где 8 << 1.

Цель моделирования заключается в экспериментальной оценке зависимостей f (1, А, , р(А)), где есть суммарная вероятность обращения к словам порции

усечения, а р(А) - взвешенная по типовым ошибкам пользователя суммарная вероятность пропуска ошибочного слова усеченного БС:

N

¿Л> = | р(ж) А. р(А) = XР^ •

Рис. 2 иллюстрирует геометрический смысл значений величины (для большей

наглядности масштабы экспонент искажены).

Таким образом, смысл принятого названия модели заключается в том, что распределение вероятностей обращений описывается непрерывной функцией, описывающей дискретные значения pJ для отдельных

слов; дискретный характер носят и процессы имитационного моделирования искажений слов

N(1-25) N(1-5) N1 г г _

(А) и обнаружения ошибок.

Рис. 2. Геометрический смысл величины Р Для нивелирова-

ния влияния объема словаря на значения р( А) проведено нормирование словарей до минимального объема N=84 570, «покрывающего» все 6 рассматриваемых словарей; нормирование осуществлялось путем исключения слов случайным образом.

В табл. 3 приведены конкретные данные, полученные в процессе моделирования (8 = 0.06), а на рис. 3 - обобщенные результаты, более наглядно отражающие общие тенденции количественных зависимостей между существенными параметрами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 3. Результаты моделирования

А-10-3 (N -А) -10" р(А) -102 рд).^4 (А = 8/ ) Г /ю Р(А)-109 (А = 24/ ) г= /т

СЗр СЛр СРЛр СЗу СЛу СРЛу

0 84,57 0,50 0,38 1,12 0,39 0,28 0,84 0 0

5,08 79,50 0,48 0,36 1,05 0,37 0,27 0,79 2,1 0,12

10,16 74,42 0,45 0,35 0,99 0,35 0,26 0,75 5,4 0,63

15,24 69,35 0,42 0,33 0,92 0,33 0,25 0,70 10,8 2,80

20,32 64,27 0,40 0,31 0,86 0,31 0,23 0,65 19,5 11,96

N 0 0 0 0 0 0 0 104 109

N-А{

4. Заключение

1. Из приведенных данных видно, что уменьшение объема словаря противоположным образом влияет на факторы его качества (контролирующая способность и вероятность ложных сообщений об ошибке) и в какой именно степени влияет. Приемлемость компромиссного паре-то-оптимального решения зависит как от абсолютных значений р(D), , так и от их

относительной значимости в конкретном случае. Поэтому моделирование, подобное проведенному выше, для реальных дискретных значений pконкретного словаря может дать полезную информацию для

принятия обоснованных решений относительно задачи выбора исходного словаря за основу БС и возможной коррекции его объема.

2. Более точную информацию для решения упомянутой задачи могло бы дать «точечное» моделирование с оценкой конкретного вклада потенциально исключаемых слов в значения факторов качества. Например, слово, не являющееся «мишенью» ни для какого ошибочного слова, явно не влияет на итоговую контролирующую способность словаря. Описанная имитационная модель может служить инструментальной основой для такого точечного моделирования.

3. Что касается видимых из приведенных данных «преимуществ» украиноязычных словарей в смысле значений р (не имеющих, впрочем, практического значения для рассматриваемой задачи, так как язык БС не является предметом выбора), то одно из возможных объяснений заключается в принятом способе их формирования путем русско-украинской конвертации. Авторам пока не удалось найти подходящих украинских словарей в свободном доступе в формате, приемлемом для проведения соответствующих исследований.

СПИСОК ЛИТЕРАТУРЫ

1. Литвинов В. А. Экспериментальная оценка эффективности автоматического обнаружения типовых ошибок пользователя по словарям русского и украинского языков / В.А. Литвинов, С.Я. Майс-тренко, О.П. Юденко // Мiжнар. наук.-техн. конф. «Системний аналiз та шформацшш технологи» SAIT 2012, (Киев, 24 апреля 2012 р.). - Киев, 2012. - С. 374.

2. Литвинов В.А. Контролирующая способность методов автоматического обнаружения типовых ошибок пользователя по словарям русского и украинского языков / В.А. Литвинов, С.Я. Майстрен-ко // Матерiали наук.-практ. конф. з мiжнар. участю «Системи тдтримки прийняття ршень. Теорiя i практика», (Кшв, 3 червня 2013 р.). - Кшв, 2013. - C. 46 - 48.

3. Словари русского языка [Электронный ресурс]. - Режим доступа: http : //speakrus. ru/dict.

4. Словарь Лопатина [Электронный ресурс]. - Режим доступа: http://royallib.ru/book/ lo-patin_vladimir/russkiy_ orfograficheskiy_slovar.html.

5. Литвинов В.А. Контроль достоверности и восстановления информации в человеко-машинных системах / В.А. Литвинов, В.В. Крамаренко. - Кшв: Техшка, 1986. - 200 с.

Стаття над1йшла до редакцп 10.12.2013

i Надоели баннеры? Вы всегда можете отключить рекламу.