Научная статья на тему 'Классификация ошибок распознавания символов печатных изданий в старинной орфографии'

Классификация ошибок распознавания символов печатных изданий в старинной орфографии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
496
189
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ТЕКСТОВ / СТАРИННАЯ РУССКАЯ ОРФОГРАФИЯ / СТАРОРУССКИЙ ТЕКСТ / OLD RUSSIAN TEXT / OLD-TIME RUSSIAN ORTHOGRAPHY / TEXT RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соловьев В. Д., Маргулис И. С.

Приведенная статистика и анализ могут быть полезны для автоматической посткоррекции распознанных документов и для совершенствования алгоритмов распознавания.Angeführte Statistik und Analyse können für die automatische Nachkorrektion der erkennten Dokumente und für die Vervollkommnung der Algorithmen der Erkennung nützlich sein.Les statistiques et lanalyse citées peuvent être utiles pour une postcorrection automatique des documents discernés et pour le perfectionnement des algorithmes du discernement.The given statistics and analysis can be of use for automated post-correction of recognized documents and improvement of recognition algorithms.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Соловьев В. Д., Маргулис И. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Классификация ошибок распознавания символов печатных изданий в старинной орфографии»

УДК 004.912:80.81

КЛАССИФИКАЦИЯ ОШИБОК РАСПОЗНАВАНИЯ СИМВОЛОВ ПЕЧАТНЫХ ИЗДАНИЙ В СТАРИННОЙ ОРФОГРАФИИ В.Д. Соловьев1,2, И.С. Маргулис2

Казанский государственный университет (1);

Институт проблем информатики Академии наук республики Татарстан (2)

Представлена членом редколлегии профессором В.И. Коноваловым

Ключевые слова и фразы: распознавание текстов; старинная русская орфография; старорусский текст.

Аннотация: Приведенная статистика и анализ могут быть полезны для автоматической посткоррекции распознанных документов и для совершенствования алгоритмов распознавания.

Введение

В статье приводится перечень и анализ часто встречающихся ошибок распознавания старорусских печатных текстов в оригинальной орфографии на примере ошибок программы АББУУ FineReader. Целями работы являются предоставление материалов для корректировки алгоритмов распознавания текстов и для посткоррекции распознанных текстов ХУШ-Х1Х вв.

Необходимость в распознавании старинных текстов возникла при создании корпуса русского языка XVIII в. [2]. Данный проект обусловлен необходимостью лингвистических и иных исследований старорусских текстов, проект имеет поддержку РГНФ. Разработка морфологического анализатора для русского языка XVIII века ведется совместно с ООО Яндекс*.

В приведенных далее примерах был выбран язык распознавания «Русский (старая орфография)» из числа дополнительных языков АББУУ FineReader. В качестве материалов для исследования была выбрана книга «Книга ^стша или состояше мухаммедансюя релМи» [1], изданная в 1722 г.

Ошибки распознавания составляют примерно 20 % символов (больше или меньше - в зависимости от наличия пятен на странице и т.п.). Для автоматической посткоррекции распознанного текста можно выделить два метода, упрощающих дальнейшую ручную коррекцию.

Метод «грубой» коррекции

«Грубый» метод заключается в автоматической замене часто встречающихся ошибок на соответствующие корректные последовательности символов. После каждой замены в слове снова производится поиск часто встречающихся ошибок, так как изменения в слове иногда позволяют определить следующую коррекцию.

* YANDEX Internet Mathematics Grant 2007.

Например, в списке для автоматических замен имеются записи, указывающие, что прописной Ь на конце слов необходимо заменить на прописной Ъ, и что нстЪ на конце слов необходимо заменить на нетЪ. Тогда за счет последовательной коррекции нстЬ - нстЪ - нетЪ все слова, оканчивающиеся после распознавания на нстЬ, будут исправлены. Перед процессом замен необходимо определить, преобладают в распознанном тексте строчные буквы «И-восьмиричное» с одной точкой над «i» или с двумя. Во всем документе обычно используется лишь одно из этих начертаний, оно и должно использоваться при коррекции. После автоматических замен все оставшиеся буквы «И-восьмиричное» должны быть также преобразованы к общему виду. Это должно быть последней коррекцией (как в данном методе, так и в описанном ниже методе), так как для некоторых замен существенно, какой именно из символов «И-восьмиричное» имеет место в ошибке распознавания. Пользователь должен иметь возможность выбрать опцию контроля, чтобы принимать или отклонять коррекции.

Принцип такой коррекции похож на работу клавиатурного перехватчика, меняющего раскладку клавиатуры и конвертирующего набранную часть слова, если она отсутствует в словаре. Клавиатурные перехватчики (keyloggers) - это в большинстве случаев «троянские» программы-вирусы, а также программы, упрощающие клавиатурный ввод (например, Punto Switcher). Только в данном случае (в отличие от работы Punto Switcher) символы заменяются не в зависимости от их расположения на клавиатуре, а на основе статистики ошибок распознавания.

Поиск ошибок распознавания, для которых была бы возможна контекстная замена, производился на фрагменте текста размером 16 страниц [1, с. 24-39], затем производился контекстный (контекст - соседние символы) поиск данных ошибок в рамках 49-ти страниц документа [1, с. 24-72]. Если были найдены такие же последовательности символов, не являющиеся ошибками распознавания, контекст уточнялся и поиск проводился заново. Таким образом выявлялась возможность для автоматической замены неверно распознанных последовательностей символов. Было определено около 200 правил для автоматической замены некорректно распознанных последовательностей символов. В качестве примера некоторые из них представлены в табл. 1. В первом столбце показаны ошибки, во втором -комбинации символов для замены данных ошибок. Знак подчеркивания «_» в таблице обозначает любой разделитель (пробел ;, . : - () ! ? ‘ “ {}), ключом «\s» обозначен любой «пробельный» символ (все типы пробелов, табуляция, конец строки и т. п.).

В табл. 1 не приведены правила коррекции, которые описываются более сложными регулярными выражениями: для прописных букв в контексте любых строчных букв; для исключений того или иного контекста и т.п.

Статистический метод коррекции

Было обнаружено, что для большинства ошибок распознавания нельзя локализовать контекст, в котором замена данных символов будет всегда корректной. Для таких ошибок распознавания были также составлены правила коррекции.

На первом этапе коррекции, использующей статистический подход, также должен быть произведен ряд автоматических замен, но замене должны подлежать лишь последовательности символов из списка таких последовательностей, которые во-первых отсутствуют в языке, во-вторых имеют высоковероятные корректные варианты написания. Автоматическая замена производится аналогично тому, как она описана в предыдущем разделе. Далее для каждого слова, не совпавшего со словоформами словаря, порождается ряд гипотез.

Например, для слов шЬмжс и отвспстыхЪ будет порождено по несколько гипотез (считая исходный распознанный вариант слов), среди которых минимальным расстоянием до одной из записей словаря обладают гипотезы с тремя заме-

Таблица 1

Некоторые пары последовательностей символов для автоматической замены в распознанном документе

Ошибка

$ем

$см

\ълщ

\snc

_гоо

_дc

_нрї

_жт

_ошс

_ock

_ято

>

3cм

sак

ащc

6c3

6c

врcм

вс3

вcn

вт

вcр

грc

гc^

деc_

6c

Замена

зем

зем

\&лщ

\зне

_то

_де

_прг

_нет

_отс

_сек

_что

зем

зак

аще

без

бес

врем

вез

вел

вен

вер

гре

гел

ден_

де

Ошибка

д^Ъ_

е

ест

ешх

ждc

жc

sна

имЪc

ШЪ

Icр

йіь

кур

лноc_

лcж

лш

лт

лс

л^Ъ_

мошр

моvсc

мрc

мcд

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

мcч

н'^мЪ

nc6

nce

Замена

детЪ_

е

есен

етх

жде

же

зна

имЪе

тЪ

Іер

ть

кур

лное_

леж

леи

лен

лес

летЪ_

мотр

моусе

мре

мед

меч

темЪ

неб

нев

Ошибка

же_

жж

жїз

жм

hch

ncn

ncc_

жтЪ_

жц

жю

ныо

nbic

оїпо

ошрc

ошч

прc

жр

ncn

рcб

рcд

рcж

рто

рcч

рщ

cдї

смош

Замена

нее_

неж

негз

нем

нен

неп

нее_

нетЪ_

нец

нею

нно

ные

ото

отре

отч

пре

пер

печ

реб

ред

реж

рено

реч

рещ

еда

смот

Ошибка

сcрд

CCЯ

^ся_

сша

сшв

сшо

сшся_

твc

трc

тcu

т^

тш_

тер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

УуУ

чcм

швер

шво

шc

щеc_

щc

щш

ыо

Замена

серд

сея

етс

ется_

ста

ств

сто

ется_

тве

тре

теи

тел

теп_

тор

ущ

чем

твер

тво

ше

щее_

ще

щеи

но

нами в слове - тЪмже и отверстыхЪ. Лексикографическим расстоянием между словами в наиболее простом случае можно считать количество несовпадающих букв. В примерах подчеркнуты последовательности букв, участвующие в замене, но замене подлежат не все буквы в последовательностях, так как замена контекстная. Пользователь должен иметь возможность также самостоятельно выбирать правильный вариант коррекции.

В обоих словах для первой слева замены существовали варианты, и подошел наиболее распространенный вариант. Однако в процессе коррекции должна учитываться не столько распространенность ошибок распознавания, сколько соответ-

ствие слов-гипотез форме какого-либо слова из словаря. В качестве примера в табл. 2 для буквы п показаны некоторые варианты, в которых она была в качестве верного и неверного результата распознавания в различных контекстах в рамках тех же 49-ти страниц исследованного текста [1, с. 24-72]. В первом столбце показаны распознанные комбинации символов, во втором - исходные (оригинального текста), в третьем - количество данных случаев распознавания.

Исследование ошибок распознавания

Для посткоррекции и для модификации алгоритмов распознавания может также оказаться полезной статистика ошибок распознавания для отдельных символов. Данное исследование производилось на фрагменте размером в одну страницу [1, с. 24]. На данной странице должно было быть распознано 2360 символов. Из них 421 (около 18 %) символов распознано неверно. Всего для страницы было распознано 2428 символов. Из них 489 (около 20 %) символов являются результатами ошибок распознавания.

Результаты исследования представлены в табл. 3-7. Для каждого символа в первой строке в таблицах первая дробь показывает, сколько должно быть распознано данных символов (относительно оригинального документа) и сколько из них распознано неверно, вторая дробь показывает, сколько символов распознано как данный и сколько из них являются результатами ошибок распознавания. Про-

центы округлены до одной десятой. В первых строках таблиц напечатаны строчные варианты букв, так как они чаще встречаются при распознавании (за исключением букв «Ять» (Ъ ) и «Твердый знак», которые во многих изданиях XVIII в. печатались заглавными с целью наглядного отличия от буквы «Мягкий знак»). Результаты распознавания старорусской буквы «И-восьмиричное» (I, а, Г) приводятся отдельно для каждого типа ее начертания. Во второй строке табл. 3-7 представлены результаты некорректного распознавания для каждого символа. В третьей строке представлены другие символы, которые были по ошибке распознаны как данный символ.

В табл. 3-7 после примеров в круглых скобках указано количество данных ошибок распознавания, если оно выше единицы. В квадратных скобках использованы следующие сокращения: «след» (след от наложения печатных листов), «нет» (символ ни каким образом не распознан), «простр.» (пространство отступа без каких-либо «пробельных» символов), «МЬ» (знак новой строки). Все знаки «дефис» (табл. 5) на исследованной странице использовались в качестве переносов слов.

Т аблица 2

Некоторые примеры, где результатом распознавания оказалась буква п в различных контекстах

Символы Количество случаев распознавания*

распознанные исходные

пг пг 0

т 19

ч 1

іп їп 2

т 53

ш 1

ini їт 2

п 1

їп т 3

їп >>

пі т 43

пї 18

пї т 2

пї >>

* Знак «>>» обозначает подавляющее большинство.

В целях выделения специфики распознавания старорусских букв, отсутствующих в современном языке, статистика по ним представлена отдельно в табл. 4. Также отдельно представлены результаты распознавания пунктуации (табл. 5), результаты распознавания цифр (табл. 6), результаты распознавания символов, обычно отсутствующих в старорусских текстах (табл. 7). Соответственно языку

Т аблица 3

Результаты распознавания букв старорусского текста, имеющихся в современном русском языке

а б в г д

111/8 36/16 92/20 43/3 64/6

7,2 % 44,4 % 21,7 % 7 % 9,4 %

108/5 27/7 85/13 49/9 80/22

4,6 % 25,9 % 15,3 % 18,4 % 27,5 %

д (2) з ь Б — б (6) В д з н (2) т ш Ъ (2) с л л (2)

я л (2) * - э л (2) своего — БД — ф

6 во — тю /тадосф" БД — ф

о (2) вы — ьь [нет] —

Р вЪр — ЛЛЬЛ [нет]

б - a Швы — Арьь

Ъ[МЬ]быти — Щщя своего — /тадосф"

Л тв—ттю

$ твЪ — щл ыв — ій

и л о с Ъ е (2) з п т — гп (4) а (2) в з л (5)

Ш — ша Б — б (6) в — В [пробел] — о п с (2) т я

«5 — Л г (2) т — ді

«5 — Ъ [след] (3) ц — 1д

[след] (6) [след] (5)

е ё ж з и й

152/57 0/0 42/4 24/4 93/25 0/0

37,5 % 9,5 % 16,7 % 26,9 %

98/3 0/0 39/1 23/3 73/5 4/4

3,1 % 2,5 % 13 % 6,8 % 100 %

Ъ в Л (р 2 с 4 ) Ч л (2) же — л в д а i (2) й м н р ф ц ш я л (2) И — Л

етс — л же — Л; / И — л

же — л [нет] ii

же — Л; ле — л ми — iущ ти — din

своего — ти — iиг

/тадосф" ти — рЦЛ ти — щиг сти — фПфi: Ъ\^/]быти — Щщя ыи — ьщ Л.

ую — у4ЕО [след] (2) [след] а в м — зч н (2) [след] (3) и п т — iu ыв — iu

к л м н о п р

51/8 50/15 83/11 94/8 177/32 41/10 74/3

15,7 % 30 % 13,3 % 8,5 % 18,1 % 24,4 % 4,1 %

44/1 42/7 73/1 90/4 156/11 41/10 103/32

2,3 % 16,7 % 1,4 % 4,4 % 7,1 % 24,4 % 31,1 %

Ъ л (3) а д (5) у ф Л (3) и (2) р у а д р (20) с П л д в Л

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

$ р л 4 зч Ц (2) (2) 0 л (2) 9 р (4) ц вЪр — ЛЛЬЛ

К — 1С ле — л iv во — тю [нет]

гс лЪ — ЛуЬ Му — Щ но — ью но — ью

лс Ъ л — ми — iущ ОтЪ — щ

[нет] Лi мЪ — Л своего —

[нет] (2) /тадосф"

ю — к> д п я и и § в б (2) с Ъ п — П б е (2) и л

— [след] ую — у4ЕО т — /п н о (20) п

к — л с ю — ю (2) т — гп (4)

[след] (2) [след] (4) т — iп (2) гтвы — Лрьь

it — т ти, — рЦЛ,

т — пэ

[след] (3)

с т

100/11 91/38

11 % 41,8 %

139/50 64/11

36 % 17,2 %

а д (2) о ф л 9 д ш (5) щ л $ гп (4) дi етс — > 2) in (2)

своего — /тадосф" гт — ша гтвы — Лрьь ОтЪ — щ э п

сти — фПфі етс — л [нет]

сти — фПфі тв — ттю твЪ — щЛ ти — шг ти — piiA тц — дщ ц Ъ[Ш^]быти - Щщя /п [нет] (4)

ти — di

г е (44) о (2) К — 1С

к — гс

к — л с

в

во — тю

своего — /тадосф" [след] (8)_________

у 62/3 4,8 % 63/4 6,3 % ф 1/1 100 % 9/9 100 % х 36/2 5,6 % 34/0 0 % Ц 10/3 30 % 16/9 56,3 % ч 19/1 5.3 % 21/3 14.3 % ш 18/7 38,9 % 20/9 45 % щ 11/1 9,1 % 26/16 61,5 %

Му — Щ ую — у4ЕО [нет] ф — Ф >ч * Л гд тц — дщ я щ (4) л ц (2) щ — Щ

м н и м с и н (2) п ы е — Ч в и т т ш (4) ю

, — -у бг — ф гд—Ц м — зч (5) щ — Щ

ми — iущ БД — ф своего — /тадосф" сти — фПфi ф — Ф [нет] т — ц ш — ц (2) х — >ч гт — ша [след] Му — Щ ми — iущ ОтЪ — щ твЪ — щЛ тц — дщ Ъ[NL]быти — Щщя ыи — ьщ [след]

Ъ ы ь э ю я

86/19 34/6 9/0 5/2 17/8 41/4

22,1 % 17,6 % 0 % 40 % 47,1 % 9,8 %

77/10 29/1 38/29 6/3 13/4 41/4

13 % 3,4 % 76,3 % 50 % 30,8 % 9,8 %

Ь (13) ц Э — э ую — у4ЕО д л л *

]В ы — Ы Э — л к>

лЪ — луЬ вы — ьь io (2)

мЪ - Л ыв — ш щ

мЪ? - iуЛЬ ыи — ьщ iя

ОтЪ — щ Ъ[№,]быти — iщ 2

Ъ|МЬ]быти — Щщя Щщя

в (2) е ы — Ы а в но — ью а и ч

к — Ъ Ъ — Ь (13) т — пэ тв — ттю [след]

Ъ - Ъ (5) Ъ — Ь (7) Э —э [след] (2)

[след] вы — ьь вЪр — ЛЛЬЛ мЪ? — ivA'b но — ью ыи — ьщ [след] (2)

Результаты распознавания букв старорусского языка, отсутствующих в современном русском языке Т аблица 4

i 0/0 28/28 100 %

и (2) л - Ч сти - (2) м — iv т - щ н - iA БД - фп ю - in ш - щ т - in (2) т - ш (2) и - ii ти - din ти - шг фПфп: ю - щ (2) ц - iA [след] - i (2) ми - iyrnt ти-рпл

I 1 Ъ в v

2/0 82/11 51/25 1/0 0/0

0 % 13,4 % 49 % 0 %

4/2 73/2 26/0 2/1 3/3

50 % 2,7 % 0 % 50 % 100 %

i (2) л (2) 1 | Б В о Ъ (5) Ь (7) Л (4)

6i — ф вЪр - ЛЛЬЛ

i — )( УЛ

id — Ц

т — ша твЪ - щЛ

гтвы — Лрьь Ъл - )Л\

[нет] (2)

I — i Ъ — iл о

К — IC к — ic лЪ — ЛуЬ Мъ ? - ivЛЬ

распознавания везде в таблицах напечатана буква «Ижица», а не графически похожая на нее латинская буква «V». Таблицы набраны курсивом в целях приближения к виду оригинала (например, «т» вместо «т»), так как это значимо для исследования происхождения ошибок. Исследование оригинального документа также способствует определению происхождения ошибок распознавания.

Т аблица 5

Результаты распознавания пунктуации старорусского текста

[пробел] 338/30 8,9 % 337/29 8,6 % [NL] 2/2 1GG % G/G б/2 ЗЗ,З % 7/З 42,9 % 15/3 20 % 28/16 57,1 % 6G/8 1З,З % 55/З 5,4 % ( G/G 1/1 1GG % ) G/G 2/2 1GG %

г (2) ь (2) , . г. т /. [нет] (21) [нет] (2) ? [нет] [нет] (2) (З) \ ^ л

[грязь] (3) [простр.] (26) [след] (З) [пробел] - /. [след] (14) [след] (3) ї—)( Ъл — )А\ ї — )(

[ ] ; ? *

4/G 4/G 3/1 1/1 2/2 G/G

G % G % 33,3 % 1GG % 1GG %

4/G 5/1 6/4 2/2 2/2 5/5

G % 2G % 66,7 % 1GG % 1GG % 1GG %

V мЪ? — Vb

}

Ъ — ]В , же — А; - а х я

и [или след] - 1: [след] [след] [след] (2)

[след] (2)

Т аблица 6

Результаты распознавания цифр в старорусском тексте

2 4 5 б 9

1/G 1/G G/G G/G G/G

G % G %

1/G З/2 1/1 1/1 2/2

G % бб,7 % 1GG % 1GG % 1GG %

л Г б о с

ую — у4ЕО

Т аблица 7

Результаты распознавания символов, обычно отсутствующих в старорусских текстах

0/0 61/61 100 %

а (2) б (2) в (2) д (2) е ж (2) и (2) И ї (2) к (З) л м (З) о (2) р с т ш Ъ (4) Э я вЪр - ааьа етс — а ти — рііА лЪ - Avb же — а же — A; мЪ — a Ъ — ї'А Ъл — )А\ Ц — іА ле — А и — А; твЪ — щА мЪ? — ^АЬ н — іА [след] (9)

} 0/0 1/1 100 % § 0/0 2/2 100 % $ 0/0 2/2 100 % # 0/0 2/2 100 % € 0/0 1/1 100 % 0/0 2/2 100 % | 0/0 1/1 100 % / 0/0 5/5 100 % > 0/0 2/2 100 %

? б к т [след] е о [или след] i з т — /п [пробел] - /. [след] ю — >к х — >ч

Достаточно часто наблюдаются случаи, когда несколько напечатанных рядом символов или один символ были распознаны как один или как последовательность из нескольких других символов. В данной статье сложными ошибками распознавания называются ошибки, в рамках которых каждому распознанному символу нельзя сопоставить отдельный исходный символ. Примеры сложных ошибок приведены через тире, где слева показана исходная последовательность символов, а справа - распознанная последовательность символов. Также через тире представлены примеры, где был неверно определен регистр.

Достаточно часто встречаются случаи, когда неверно распознаны несколько символов подряд, включая сложные ошибки распознавания. За счет этого сопоставление оригинальных и распознанных символов затрудняется, но опыт в редактировании распознанных текстов позволяет определить, какие именно ошибки имели место в данной последовательности символов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализ полученных данных

Распознанных символов больше, чем должно быть, преимущественно за счет следов, образованных наложением бумаги, которые были распознаны как символы (что дало 85 лишних символов, чаще всего - точек). В некоторых случаях это приводило к потере пробелов, что требуется учесть в алгоритме коррекции распознанного текста по словарю.

Строки печатных надписей на полях страницы распознаны слитно со строками основного текста, несмотря на отступ и разницу в размерах шрифта. Если ни один символ в строке надписи не был распознан (ни корректно, ни не корректно), данная строка не принималась во внимание при подсчете количества ошибок распознавания, так как данный дефект имеет отношение не к качеству распознавания комбинаций символов, а к задаче определения таких объектов, как надписи и выделения строк. Форматирование основного текста содержало и такие ошибки, как наличие лишних и отсутствие требующихся отступов в начале абзаца, смешение строк в сильно разреженных отрывках текста и неверное выравнивание.

На рис. 1 представлены проценты ошибок распознавания для букв старорусского языка, соответственно первым строкам табл. 3, 4. Нарушая алфавитный порядок, старорусские буквы, отсутствующие в современном языке, представлены отдельно, через интервал, для наглядности при сравнении результатов распознавания современных и старорусских букв в старорусском тексте. Серый столбец показывает процент ошибок от экземпляров соответствующего символа оригинального документа, черный - от экземпляров символа распознанного текста.

Рис. 1. Результаты распознавания букв старорусского текста:

□ - % ошибок от экземпляров символа оригинального текста;

□ - % ошибок от экземляров символа распознанного текста

Рис. 2. Результаты распознавания пунктуации старорусского текста для относительно часто встречающихся символов:

□ - % ошибок от экземпляров символа оригинального текста;

□ - % ошибок от экземляров символа распознанного текста

Результаты распознавания пунктуации старорусского текста представлены на рис. 2. Результаты приведены для таких символов из табл. 5, которые встречаются на странице оригинального документа [1, с. 24] или на распознанной странице не менее 4-х раз. Символы упорядочены по возрастанию процента неверно распознанных экземпляров символа относительно оригинального документа.

Если процент ошибок от экземпляров символа оригинального документа (серый столбец) равен нулю, то:

- если хотя бы один такой символ присутствовал в оригинальном документе, основание столбца нулевой высоты закрашено серым цветом (символы ь, І, в, [, ]);

- в противном случае основание не выделяется, столбец не печатается (е, й, у) - отсутствие ошибок, считая от экземпляров символа оригинального документа, не может характеризовать качество распознавания, если в оригинальном документе данных символов не было.

Аналогично, если процент ошибок от экземпляров символа распознанного текста (черный столбец) равен нулю, то основание столбца маркируется черным прямоугольником, только если экземпляры символа присутствовали в распознанном тексте (х, Ъ, [). Процент ошибок для экземпляров символов распознанного текста (черный столбец) может достигать 100 % в двух случаях: когда в оригинальном документе экземпляров данного символа не было и когда все экземпляры данного символа были распознаны неверно. В первом случае соответствующий серый столбец будет отсутствовать (й, у), во втором случае он будут также достигать 100 % (ф).

На рис. 1, 2 не представлены данные из табл. 6, так как цифры в старорусских текстах встречаются редко, в основном только в качестве номеров страниц. Т акже не представлены данные из табл. 7, так как для всех символов, отсутствующих в старорусских текстах, ошибки распознавания могут составлять или 100 или 0 %, поэтому больший интерес представляет не процентная, а количественная статистика данных ошибок (см. табл. 7). Кроме того эти ошибки можно исключить, ограничив набор распознаваемых символов на базе языка распознавания «Русский (старая орфография)».

На рис. 1 отсутствует один из символов табл. 4 - «И-восьмиричное» с одной точкой над <а». Как правило в старорусских текстах строчная буква «И-восьмиричное» печатается по всему документу либо с одной точкой, либо с двумя. Если бы в исследованном тексте присутствовала буква «И-восьмиричное» с одной точкой, то скорее всего для нее столбцы диаграммы ошибок распознавания в процентах были бы близки к соответствующим показателям для «И-восьми-ричное» с двумя точками. Особенно это относится к величине процента ошибок от экземпляров символа оригинального документа, а второй столбец должен был бы оказаться несколько выше за счет того, что «И-восьмиричное» с одной точкой выглядит менее специфично, и другие символы чаще принимаются за него при распознавании. Таким образом данные из табл. 4 для буквы «И-восьмиричное» с одной точкой, представленные в процентах, плохо характеризуют качество распознавания данного символа в старорусских текстах. Однако это не мешает представить те же данные без вычисления процентов (рис. 3).

Статистика для символов, с которыми связано наибольшее количество ошибок распознавания в старорусском тексте на одной странице [1, с. 24], представлена на рис. 3. Пробел обозначен как «Б8». Первый ряд в диаграмме показывает количество различных символов из числа 421 неверно распознанных на странице, второй ряд показывает количество различных ошибок из числа 489 ошибок распознавания на странице. На рис. 3 представлены символы, более 20-ти экземпляров которых были распознаны неверно или более 20-ти экземпляров которых оказались ошибками после распознавания.

Таких символов оказалось 12 (примерно 18 %) из всех 67. Данными двенадцатью символами представлено 247 (примерно 59 %) из 421 неверно распознанных экземпляров символов оригинальной страницы и 233 (примерно 48 %) из 489 ошибок распознавания. Таким образом на исследованном отрывке старорусского печатного текста около 50 % ошибок распознавания имеют отношение к 18 % символам (буквы в, д, е, и, о, р, с, т, ь, і, Ъ и пробел). Данное проявление принципа Парето можно учесть для «тактики наименьших усилий», например, если алгоритм распознавания использует шаблоны символов или другие методы, имеющие для каждого символа свои отличия. Повышение качества распознавания всего лишь 12-ти символов (например, пополнение шаблонов) способно существенно повлиять на общую статистику распознавания старорусского текста. Одна-

вдеиорсть і В [Вв]

Рис. 3. Результаты распознавания для символов, с которыми связано наибольшее количество ошибок распознавания в старорусском тексте:

Ш - количество символов из числа 421 неверно распознанных;

Ш - количество ошибок из числа 489 ошибок распознавания

ко исключительно «лобовой» метод перебора шаблонов вряд ли имеет большие перспективы, и «тактика наименьших усилий» может оказаться неэффективной по сравнению с модернизацией алгоритмов распознавания. В таком случае для повышения качества распознавания старорусских текстов может оказаться полезной статистика, отражающая сложность распознавания символов (независимо от частоты их встречаемости в текстах) - см. рис. 1, 2. Данная статистика позволяет выявить аспекты, наиболее актуальные для распознавания: для символов, менее всего поддающихся распознаванию, должны быть в большей степени выражены особенности, определяющие сложность распознавания. Это может послужить материалом для создания или модернизации алгоритмов распознавания. В связи с этим на рис. 1, 2 проценты рассчитаны не от общего количества символов в тексте, а от количества экземпляров данного символа.

Как видно из диаграмм, для большинства символов ошибки относительно оригинального текста и относительно распознанного текста не превышают 30 %.

Присутствие в одном слове по несколько ошибок распознавания, тогда как в соседних словах ошибки могут отсутствовать, объясняется наличием пятен в оригинальных документах. Определено, что количество ошибок распознавания существенно зависит от пятен на оригинальном документе, поэтому после сканирования старинных текстов, перед распознаванием желательно пользоваться программными инструментами для очистки графических файлов от пятен [3]. Своеобразие старорусских печатных шрифтов требует использовать распознавание со встроенным обучением, но это не исчерпывает всех видов ошибок, в связи с чем требуется посткоррекция распознанного текста.

Заключение

В статье рассмотрены проблемы распознавания текста и посткоррекции распознанных документов. Полученная статистика может быть использована для автоматической посткоррекции распознанных документов, а также для совершенствования алгоритмов распознавания, для выделения особенностей начертания символов, плохо поддающихся распознаванию. Планируется создание макросов под MS Word для автоматической и интерактивной посткоррекции распознанных текстов.

Работа выполнена при частичной поддержке РФФИ, грант № 05-07-90376-в.

Работа выполнена при частичной поддержке РГНФ, грант № 07-04-12147— в.

Список литературы

1. Кантемиръ, Д.К. Книга ^стїма или состоянїе мухаммеданскїя релїгїи / Д.К. Кантемиръ. - ^пографїя царствующаго Санктъ-Петербурха, 1722. - 412 с.

2. Национальный корпус русского языка / Ассоциация «Национальный корпус русского языка». - Режим доступа : http://www.ruscorpora.ru.

3. Южиков, В.С. Об одном методе предварительной обработки изображений старопечатных и рукописных текстов / В.С. Южиков // Исследования по информатике. - Казань : Отечество, 2005. - Вып. 9. - С. 125-132. - Режим доступа : http://ipian.kazan.ru/science/zip/ 9_010.zip.

Classification of Symbols Recognition Mistakes in Printed Editions in Old-Time Orthography

V.D. Solovyov1’2, I.S. Margulis2

Kazan State University (1);

Institute of Information Problems of Science Academy of Republic of Tatarstan (2)

Key words and phrases: old Russian text; old-time Russian orthography; text recognition.

Abstract: The given statistics and analysis can be of use for automated post-correction of recognized documents and improvement of recognition algorithms.

Klassifikation der Fehler der Erkennung der Symbole der gedruckten Ausgaben in der alterttimlichen Orthografie

Zusammenfassung: Angefuhrte Statistik und Analyse konnen fur die automa-tische Nachkorrektion der erkennten Dokumente und fur die Vervollkommnung der Algorithmen der Erkennung nutzlich sein.

Classification des erreurs du discernement des symboles des editions d’imprimerie dans l’orthographie ancienne

Resume: Les statistiques et l’analyse citees peuvent etre utiles pour une postcorrection automatique des documents discernes et pour le perfectionnement des algo-rithmes du discernement.

i Надоели баннеры? Вы всегда можете отключить рекламу.