Научная статья на тему 'Word: причины пропуска ошибок при компьютерной проверке правописания'

Word: причины пропуска ошибок при компьютерной проверке правописания Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1099
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОКОРРЕКТОР / ПРОГРАММА-ПОДСКАЗКА / ПРОВЕРКА ПРАВОПИСАНИЯ / ОРФОГРАФИЧЕСКИЕ ОШИБКИ / ОПЕЧАТКИ / УСТАРЕВШАЯ ЛЕКСИКА / ОРФОГРАФИЧЕСКИЙ СЛОВАРЬ / СПЕЛЛЕР / MS WORD 2003 / WORD 2013

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лавошникова Элина Константиновна

Рассматривается проблематика компьютерных систем проверки правописания. Работа автокорректоров разбирается на примере текстового редактора MICROSOFT WORD (версии 2013 и 2003 гг.). На многочисленных примерах показано, что перегруженность системных словарей устаревшей и низкочастотной лексикой приводит к пропуску ошибок и опечаток. Даются рекомендации для разработчиков новых версий спеллеров с программами-«подсказками».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Word: причины пропуска ошибок при компьютерной проверке правописания»



SCIENCE TIME

WORD: ПРИЧИНЫ ПРОПУСКА ОШИБОК ПРИ КОМПЬЮТЕРНОЙ ПРОВЕРКЕ ПРАВОПИСАНИЯ

Лавошникова Элина Константиновна, Московский государственный университет им. М.В. Ломоносова, Научно-исследовательский вычислительный центр, г. Москва

E-mail: el. lavoshnikova@yandex. ru

Аннотация. Рассматривается проблематика компьютерных систем проверки правописания. Работа автокорректоров разбирается на примере текстового редактора MICROSOFT WORD (версии 2013 и 2003 гг.). На многочисленных примерах показано, что перегруженность системных словарей устаревшей и низкочастотной лексикой приводит к пропуску ошибок и опечаток. Даются рекомендации для разработчиков новых версий спеллеров с программами-«подсказками».

Ключевые слова: автокорректор, программа-подсказка, проверка правописания, орфографические ошибки, опечатки, устаревшая лексика, орфографический словарь, спеллер, MS Word 2003; Word 2013.

Компьютерные программы, проверяющие правописание, называют автокорректорами, а также спеллерами или спел-чекерами. При компьютерной проверке слова из текста сравниваются со словоформами, уже имеющимися в системных словарях или порождаемыми из списков специальным образом сконструированных квазиоснов и квазиокончаний [4]. Если слово не найдено -это значит, что оно по каким-то причинам не включено в словари текстового редактора либо содержит ошибку. В обоих случаях спеллер предлагает пользователю обратить на такое «новое» слово свое внимание (например, подчеркивает красной волнистой линией), а программа-«подсказка» выдает список вариантов исправления этого слова.

Приведем пример специально придуманной фразы: «Кеш можно не тратить, кеш нам еще пригодится». В первом вхождении слова «кеш» (с прописной буквы) автокорректор текстового редактора Word'2013 «распознает» уменьшительное имя Кеша - его родительный падеж мн. числа или звательную форму (еще пример: «Тань, береги свою гор тань!» - Word'2013 пропускает звательные формы некоторых личных имен и в этой фразе подчеркивает

красным только последнее «тань»). «Кеш» с прописной буквы никак спеллером не подчеркивается. При втором вхождении слова («кеш» со строчной буквы) автокорректор предупреждает пользователя о якобы ошибке, считая правильным написание «кэш», что противоречит рекомендациям академических словарей

[7]).

Word'2003 неожиданно вдруг перестал (в отличие от предыдущих версий) «узнавать» такие слова, как голубой, розовый, дурак, идиот, стерва, негр, даже глагольную форму осел (заодно подчеркивались красным словоформы осела, осели и т.д.). Word 2013 года вернул эти «нехорошие» лексемы в свой системный словарь и пропускает их в тексте без возражений.

В основном системном словаре автокорректора, встроенного в текстовый редактор Word (2003 и 2013), имеются следующие лексемы, пропускаемые спеллером без замечаний: ас и асс (некорректное образование летчик-асс пропускается без подчеркивания, но низкочастотное существительное асс имеет значение 'древнеримская монета' [1]), достигать и достегать ('закончить шитье стеганого одеяла'), кортеж и картеж (картёж - игра в карты), наживаться и нажеваться (от глагола жевать), пародировать и парадировать (от существительного парад), подражать и подрожать (от глагола дрожать), постигать и постегать (от глагола стегать).

Этот список может быть продолжен. В текстах пользователей такие низкочастотные слова, как вторые члены этих пар, с большей вероятностью могут возникнуть в результате ошибки или опечатки. Однако при проверке текстов Word'овским спеллером они пропускаются без замечаний (никак не подчеркиваются), так как без каких-либо особых помет о сферах их употребления имеются в его системных словарях.

В основном словаре Word'овского автокорректора представлены профессиональные термины: контроллер (аппарат), морской термин протрактор, ботанические термины перилла и ость, севр (фарфор), геологический термин трапп, астрономический вертикал, математический термин комплемент, музыкальные затакт, мотет, нона и нонет. Эти слова могут с большей вероятностью получиться у непрофессионала в этих областях в результате опечаток, а также разбивки (например, тороплив ость) или склеивания двух словоформ.

Примеры слов, пропускаемых автокорректором, которые с большей вероятностью могут быть получены в результате распространенной ошибки -пропуска буквы: иступленный (карандаш), корец (обл., ковш), надежа (надёжа, просторечное), поветь («помещение в крестьянском дворе, обл.» [7]), статочный («Статочное ли дело?»).

В «Грамматическом словаре» академика РАН Андрея Анатольевича Зализняка [1] особыми символами отмечены прилагательные, краткие формы от

которых почти никогда не употребляются (предположительны или затруднительны). Однако в системных словарях MS Word (2003 и 2013) такие краткие формы образуются по общим схемам и пропускаются без замечаний: дальне, дочерня, зелененьки, легонька, осторожненька, прежни, свеженьки, тихонька и т.п. Очевидно, что эти словоформы в современных текстах с большей вероятностью могут быть получены в результате обрезания «по техническим причинам» последней буквы (например, при недостаточно сильном нажатии клавиши, нечаянной вставке пробела или при сканировании со сгиба книги).

В лексической базе текстового редактора MS WORD представлены и никак не маркируются низкочастотные глаголы: бороть, вмесить, впить, вскальзывать, вскользнуть, вымешать, вытроить, густить, досажать, ежить (ёжить), избабиться, кориться, маять, небречь, обзнакомиться, окорять, повестить, помститься, послышать, прашивать, примститься, сбирать (и сбираться: «Как ныне сбирается вещий Олег...»), сроить, ссунуться, сытить, тропить, узиться, утонить, учувствовать, хвостать и др. Это далеко не полный список. Подобные глаголы и образуемые от них причастия в реальных текстах пользователя могут появиться в результате опечаток в более употребительных словах.

Фраза с нередко встречающимися в компьютерных текстах склеиваниями слов или, наоборот, разбиениями «Выбросаете, вышвыряете изубранного балкона бутылки наголову пеше ходам?» пропускается без замечаний, так как в системном словаре Word^ имеются глаголы выбросать, вышвырять, изубрать, наречия наголову (разбить врага), пеше.

В словаре А.А. Зализняка [1] различаются пометы «устаревшее» и «устаревающее», в «Русском орфографическом словаре» [7] им соответствует помета «устарелое». В системных словарях текстового редактора MS WORD архаичная лексика никак не обособляется и поэтому пропускается в проверяемых текстах без замечаний.

Почти никогда не встречающиеся в современных текстах слова можно было бы убрать из основного системного словаря текстового редактора. При этом низкочастотные слова будут подчеркиваться либо как не найденные в словарях спеллера, либо (в случае их перевода с пометами в особые словари) как имеющие ограниченную область употребления - с выдачей по желанию пользователя толкований и разъяснений.

Не все слова с пометами даже из первого издания словаря А. А. Зализняка, размеченного и перенесенного на машинные носители в составе созданной в 80-х годах в Лаборатории автоматизированных лексикографических систем Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова базы данных [2, с.32], а впоследствии положенного в основу системного словаря

первого Word'овского автокорректора ОРФО [3, 4], учтены в системе Word'2013. Например, у глагола спотыкнуться в словаре Зализняка [1] есть ссылка на глагол споткнуться, где к его варианту спотыкнуться дается помета простореч., однако Word пропускает спотыкнуться без каких-либо замечаний.

Часто в тех случаях, когда в словаре Зализняка даются указания, что какие -либо формы из парадигмы слова затруднены или избегаются, проверщик правописания Word пропускает их без замечаний. Примеры: от слов часок, роток, кусток - часку, ротки, кустками и т.п.

Следует отметить, что в большинстве издаваемых словарей не приводится полного набора дериватов - однокоренных слов [3]. Эти словари рассчитаны на человека, а человек, если он достаточно хорошо знает язык, может понимать и даже сам образовывать слова, не порождаемые в словарях текстового редактора Word'2013 и подчеркиваемые красным: бивалютный, госаккредитация, гусарство, детективчик, защитничек, комплексовать, конфискат, наркодилер, негуманность, нетипичность, переозвучить, подредактировать, подыгрывание, подыскивание, политкорректный, прелюбопытнейший, псевдорадикальный, саундпродюсер (подсказка-2013 предлагает «продюсера саун»), спецсеминар, харизматичный, экстремал и т.п. Желательно в словарях спеллера такие слова иметь или порождать.

Из всего вышеизложенного главные выводы таковы. Чем «богаче» основной системный словарь автокорректора, тем больше ошибок пропускается; чем он беднее, тем больше «ложных тревог». С одной стороны, желательно, чтобы системные словари текстовых редакторов как можно больше пополнялись новыми словами. При этом могли бы использоваться и механизмы словообразования, создания «словарных гнезд». С другой стороны, в основных системных словарях должны быть выявлены малоупотребительные слова и словоформы, которые могут совпасть с искажениями (в результате наиболее вероятных ошибок и опечаток) достаточно употребительных словоформ. Такие «подводные камни», которые «вылезают» в списках рекомендуемых программой -подсказкой вариантов исправления, могли бы снабжаться особыми пометами или выноситься в дополнительные компьютерные словари [5, 6].

В новых версиях автокорректоров желательно учитывать технические и психологические причины возникновения опечаток и ошибок. Мы предлагаем дополнять компьютерные системные словари списками наиболее вероятных искажений - для некоторых слов. Такие сведения о типичных ошибках будут способствовать более эффективной работе текстового редактора и его программы-подсказки (наиболее вероятные варианты исправления целесообразно было бы выдавать пользователю в начале списка), а также минимизации числа отказов в выдаче вариантов исправления при компьютерной коррекции текстов.

Литература:

1. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. Ок. 110 000 слов. - 4-е изд., испр. и доп. - М.: «Русские словари», 2003. - 800 с.

2. Казакевич О.А., Членова С.Ф. Полвека лаборатории автоматизированных лексикографических систем НИВЦ МГУ им. М.В. Ломоносова // Вестник Российского государственного гуманитарного университета. - 2014. - Т. 16, № 8.

- С. 28-39.

3. Лавошникова Э.К. Компьютерная коррекция орфографии и разночтения в словарях: Возможны варианты? // Филонов. - 2015. - № 24 (1). - С. 49-54.

4. Лавошникова Э.К. Компьютерная проверка орфографии: вчера, сегодня, завтра // Вестник Московского университета. Серия 9. Филология. - 2003. - № 5.

- С. 53-68.

5. Лавошникова Э.К. О компьютерной коррекции «популярных» ошибок в текстах на русском языке // Научно-техническая информация. Серия 2: Информационные процессы и системы. - 2003. - № 9. - С. 28-34.

6. Лавошникова Э.К. О «подводных камнях» в компьютерных системах проверки правописания // Вестник Московского университета. Серия 9: Филология. -2002. - № 6. - С. 151-163.

7. Русский орфографический словарь (РОС): ок. 200 000 слов / под ред. В.В. Лопатина, О.Е. Ивановой. - Ин-т русского языка им. В.В. Виноградова РАН.

- М.: АСТ-ПРЕСС КНИГА, 2013. - 896 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.