Научная статья на тему 'ПРИМЕНЕНИЕ СОЗВЕЗДИЙ ТЕКСТОВЫХ ОСОБЫХ ТОЧЕК ДЛЯ АНАЛИЗА СОДЕРЖИМОГО РАСПОЗНАННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ'

ПРИМЕНЕНИЕ СОЗВЕЗДИЙ ТЕКСТОВЫХ ОСОБЫХ ТОЧЕК ДЛЯ АНАЛИЗА СОДЕРЖИМОГО РАСПОЗНАННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
66
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕЛОВЫЕ ДОКУМЕНТЫ / РАСПОЗНАВАНИЕ ДОКУМЕНТА / РАССТОЯНИЕ ЛЕВЕНШТЕЙНА / ТЕКСТОВАЯ ОСОБАЯ ТОЧКА / СОЗВЕЗДИЕ ТОЧЕК / ОБОБЩЕННЫЙ ТЕРМ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Славин Олег Анатольевич

В работе рассматривается метод анализа содержимого распознанных текстовых документов на основе модели созвездий текстовых особых точек - слов, уникальных для некоторой окрестности текста. Рассматриваются дескрипторы точек, извлеченные из образов документов с помощью системы распознавания символов. Сопоставление слов с ошибками распознавания осуществляется на основе модифицированного нормализованного расстояния Левенштейна. Созвездия текстовых особых точек описываются как совокупности цепей, а цепи - как последовательности обобщенных термов, которые определяются как множества текстовых особых точек, появление которых возможно в конкретном месте документа. Описывается алгоритм поиска соответствия множества слов распознанного документа и набора моделей созвездий. Рассматриваются задачи классификации и привязки полей документа. Приводятся результаты экспериментальной проверки реализации алгоритма на тестовых наборах данных деловых документов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Славин Олег Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF CONSTELLATIONS OF TEXT SINGLE POINTS FOR ANALYSIS OF THE CONTENT OF RECOGNIZED TEXT DOCUMENTS

The paper considers a method for analyzing the content of recognized text documents based on the model of constellations of text singular points - words that are unique for some neighborhood of the text. Point descriptors extracted from document images using a character recognition system are considered. Matching of words with recognition errors is carried out on the basis of the modified normalized Levenshtein distance. Constellations of textual keypoints are described as sets of chains, and chains are described as sequences of generalized terms, which are defined as sets of textual keypoints that may appear in a particular place in a document. An algorithm for searching for a match between a set of words in a recognized document and a set of constellation models is described. The problems of classification and binding of document fields are considered. The results of an experimental verification of the implementation of the algorithm on test data sets of business documents are presented.

Текст научной работы на тему «ПРИМЕНЕНИЕ СОЗВЕЗДИЙ ТЕКСТОВЫХ ОСОБЫХ ТОЧЕК ДЛЯ АНАЛИЗА СОДЕРЖИМОГО РАСПОЗНАННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ»

The purpose of this analysis was to work on creating the technical appearance of the micro RTK. The task is to analyze and assemble the theory. The research method is a descriptive method that includes the reception of interpretation, comparison and generalization. The relevance of the topic is due to the fact that RTK samples are currently imperfect for a number of reasons indicated in the article. The degree of elaboration of the problem is determined by a general analysis of sources and literature. The literature review allows us to demonstrate awareness in the chosen scientific direction and knowledge of the approaches that have been proposed by various authors on this issue. The requirements for the literature review involve not only quoting sources or retelling the author's concept, but also the logic of the presentation of the material, as well as an overview of the chosen topic, goals and objectives of the study.

Key words: technical appearance, micro RTK, RTK.

Kostanyan Karen Beglarovich, bachelor, senior operator, era1@mil.ru, Russia, Anapa, FGAU «MIT

«ERA»,

Cherkasov Roman Mixaylovich, magister, senior operator, Russia, Anapa, FGAU «MIT «ERA»

УДК 004.932.72'1

DOI: 10.24412/2071-6168-2022-9-75-84

ПРИМЕНЕНИЕ СОЗВЕЗДИЙ ТЕКСТОВЫХ ОСОБЫХ ТОЧЕК ДЛЯ АНАЛИЗА СОДЕРЖИМОГО РАСПОЗНАННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ

О.А. Славин

В работе рассматривается метод анализа содержимого распознанных текстовых документов на основе модели созвездий текстовых особых точек - слов, уникальных для некоторой окрестности текста. Рассматриваются дескрипторы точек, извлеченные из образов документов с помощью системы распознавания символов. Сопоставление слов с ошибками распознавания осуществляется на основе модифицированного нормализованного расстояния Левенштейна. Созвездия текстовых особых точек описываются как совокупности цепей, а цепи - как последовательности обобщенных термов, которые определяются как множества текстовых особых точек, появление которых возможно в конкретном месте документа. Описывается алгоритм поиска соответствия множества слов распознанного документа и набора моделей созвездий. Рассматриваются задачи классификации и привязки полей документа. Приводятся результаты экспериментальной проверки реализации алгоритма на тестовых наборах данных деловых документов.

Ключевые слова: деловые документы, распознавание документа, расстояние Левенштейна, текстовая особая точка, созвездие точек, обобщенный терм.

Деловые документы предназначены для обмена информацией в организации и между организациями. Деловые документы состоят из постоянной части (статических и графических элементов) и полей (заполнения). Статическими элементами, прежде всего, являются слова статического текста. Поля определяются как тексты, ограниченные статическими элементами или разделяющими линиями. Дизайн документов позволяет менять структуру шаблонов документов за счет: изменения шрифтов и размеров шрифтов; изменения межстрочного расстояния; переноса текста на следующую строку; переноса текста на следующую страницу; удаления слов статического текста; замены слов статического текста.

Такие изменения свойственны гибким документам, распознавание которых является актуальной задачей в системах ввода в компьютер больших потоков документов. Распознавание деловых документов позволяет автоматизировать процессы делопроизводства организации [1]. Извлечение информации из распознанных деловых документов имеет ряд особенностей. К ним относится малый объем словаря допустимых ключевых слов, необходимость учета при сравнении слов значительного числа ошибок распознавания. Другой особенностью является использование изменяемого шаблона документа для его заполнения и печати. Несмотря на модификации шаблона конечный пользователь, например, регистратор документов, может установить соответствие между заполненным документом и его шаблоном. Точнее, понимание заполненного делового документа состоит из задач:

классификации документа, то есть установления соответствия некоторому известному шаблону;

анализу структуры, то есть поиску отдельных полей и их совокупностей; понимание содержимого каждого поля.

Постановка задачи распознавания деловых документов состоит в следующем. Входными данными являются последовательность оцифрованных (отсканированных или сфотографированных) документов. Имеется описание полей, ограниченных словами статического текста и линиями разграфки. На основе распознанных текстовых объектов и найденных графических примитивов необходимо извлечь информацию из областей, соответствующих границам полей. Требуется извлечь информацию для максимального числа полей с наименьшим числом ошибок для каждого поля. Поток документов может быть достаточно произвольным, однако считается заранее известным число и описания ограниченного типа документов. Обработка каждого из документов потока начинается с определения типа документа, то есть классификации.

Рассматривался двухпроходный способ распознавания документа с использованием описания полей. На первом проходе после распознавания текста и извлечения графических примитивов прогнозируются границы полей. На первом проходе после распознавания текста прогнозируются границы полей. Границы полей определяются с помощью границ слов статического текста. При этом слова статического текста группируются для надежной идентификации. Инвариантность к искажениям документа обеспечивается моделью созвездий, которая учитывает большое число возможных ошибок распознавания символов. На втором проходе за счет параметризации распознавания достигается улучшение качества распознавания полей в найденных границах. Параметризация включала в себя использование характеристик текста для заполнения полей, как минимум алфавита распознавания. Другим параметром были процедуры словарной и лингвистической коррекции результатов распознавания поля.

В работе рассматриваются распознанные зашумленные изображения документов. Эта тематика в настоящее время является актуальной [2, 3].

Особенности распознавания зашумленных деловых документов. В работе продолжается рассмотрение модели гибких деловых документов на основе текстовых особых точек [4, 5], соответствующих ключевым словам текста. Текстовая особая точка соответствует определению особой точке изображения, удовлетворяющая следующим условиям:

отличие от близких точек изображения;

устойчивость к зашумлению;

устойчивость к геометрическим преобразованиям [6].

Простейшими примерами особых точек изображений являются углы, концы отрезков и другие топологические особенности морфологического скелета изображений. В задаче распознавания документов механизм особых точек используется для классификации и локализации документа или его части путем сравнения с эталоном. Локализация документов с бланками фиксированной геометрии может быть осуществлена этим методом, в том числе, при съемке камерой, в присутствии проективных искажений. В таком случае для сопоставления созвездий особых точек обычно используются алгоритмы семейства RANSAC [7], это позволяет полностью определить внутреннюю систему координат документа на его изображении.

Текстовая особая точка W, определенная в работе [5], состоит из нескольких компонент:

W = {T(W), B(W), L(W)} (1)

где T(W) - ядро текстовой особой точки, то есть последовательность символов si s2... sn, принадлежащих некоторому алфавиту;

B(W) - рамка, состоящая из координат четырехугольника, ограничивающего образ текстовой особой точки, а также четырехугольников, ограничивающих образы каждой из букв; координаты масштабированы по высоте и ширине нормализованной страницы;

L(W) - параметры модифицированного расстояния Левенштейна, L(W)={d(W), FA(W), M(W)}.

Пара {T(W), B(W)} определяет дескриптор особой точки. Дескриптор особой точки известен заранее. Детектором текстовой особой точки является процедура распознавания слова с помощью системы распознавания символов (OCR).

Уточним понятие распознанного слова. Текстовое слово является последовательностью символов, ограниченных пробелами или знаками разделителей. При распознавании документов, оцифрованных без существенных шумов, границы слов также будут ограничены разделителями. Однако при распознавании зашумленных и искаженных изображений (рис. 1, а) возможны ошибки механизмов поиска пробелов, в том числе поиска пробелов с помощью нейросетей [9]. Логические проблемы возникают при поиске пробелов в коротких строках. При заполнении деловых документов возможны ситуации, когда пробел между статическим словом и текстом поля реально отсутствует (рис. 1, б).

Главное управление ФеАралънА

Ми

Mi ciipe

ОСП по Северо-Зап4|ному Ар

11, инихлАщт i № к

1JLH

службы судебных

ГУФССП Ррссиц

1! 'осин

iipilt гаиов по г. по [§ Москве

ицн ццр

opitw Gineciiti ффйновд 1ыцр

б рожден иягор. 1]Лосква

Рис. 1. Примеры изображений, в которых границы слов могут определяться с ошибками

76

a

Сравнение двух текстовых особых точек проводится с помощью модифицированного расстояния Левенштейна pLEV [8] Для сравнения текстовой особой точки W и распознанного слова WREC используется параметр d(W) из массива L(W). Если pLEv(T(W),WREC)<d(W), то распознанное слово WREC и текстовая особая точка Wявляются идентичными или отождествленными.

Модифицированное расстояние Левенштейна вычисляется по рекуррентной формуле: P0lev(Si, S2) = Mlev(|Si|, \S2\) + Pen(Si, S2) + Pen(S2, Si),

Vj Mlev'(0, j) = 0, Vi Mlev'O, 0) = 0, (2)

Mlev(i, j) = min{MLEv(i, j-1)+1, MLEv(i-1, j) + 1, MiEv(i-1, j-1) +substCost(sii, S2i) }, после чего p0lev(Si, S2) нормализуется, например, согласно определению в работе [8]:

„ сс Г л _ 2 р°(51,52) pLEV^l.i2J - |SlWS2| + po(SlA) .

В определении (2) функция substCost(sii, S2,) вычисляет цену операции замены символа si на символ s2i.

Существуют пары слов, для которых большая часть символов совпадает, а различие наблюдается в небольшом числе символов, размещенных в определенном месте. Возможны случаи ложной идентификации слов близких слов с общей основой и различными суффиксами или окончаниями. Для запрета ложной идентификации таких слов применяются шаблоны M(W) следующего вида

bi b2...bk ... mi m2... mp ... ei e2...eq, ... mi m2... mr ... ei e2...eq, bi b2...bk ... ei e2...eq, bi b2.bk ... ei e2...eq, ... mi m2. mp ...,

В шаблоне задаются обязательные символы слова в начале (bi b2...bk), в середине (mi m2... mp) или в конце слова (ei e2...eq). Символ * означает последовательность произвольных символов. Если при сравнении символы распознанного слова не удовлетворяют шаблону, то расстояние Левенштейна увеличивается на некоторый штраф Pen(M(S1), S2) за несоответствие слов S2 и S1.

При вычислении функции substCost цена операции замены различных символов зависит от конкретных символов. Например, за различие сходных по начертанию символов, например, таких как II или 8В, устанавливается меньший штраф substCost(I, l) или substCost(B, 8), чем substCost(I, B). Функция substCost задается таблицей FA(W) из параметров текстовой особой точки W.

Рассмотрим более детальное представление текстовой особой точки. Определим ядро как последовательность знакомест Ci, C2,... Cn. Каждое знакоместо Ck представлено массивом альтернатив (cj wkj):

(cki, Wki), (Ck2, Wk2), ... (Ck, m(k), Wk, m(k)), (3)

где Ckj - код символа, Wkj - оценка соответствия символа Ckj образу знакоместа Ck, а m(k) - количество альтернатив. Оценки находятся в диапазоне 0...i, самой лучшей оценкой считается 0. Значения m(k) могут различаться для различных k.

Отметим, что точность поиска границ слов, равно как и точность распознавания отдельных символов, ограничена не только зашумлением и особенностями документа. В первую очередь точность зависит от возможностей используемой OCR. Основной характеристикой OCR считается точность - доля правильно выдаваемых ответов, посчитанных на некоторой выборке. Наряду с точностью важнейшей характеристикой распознавания является надежность. Понятие надежности непосредственно связано со способностью OCR давать оценку распознанному символу. При распознавании одного изображения меньшая оценка означает, что соответствующий вариант оценен как более вероятный. Надежность может быть оценена графиком или гистограммой распределения ошибок, то есть зависимостью количества ошибок распознавания в зависимости от оценок распознавания.

Пример такой гистограммы распределения ошибок, подсчитанной на некоторой выборке символов русского языка объемом 3i333 символа для OCR [i5], приведен на рис. 2. На рис. 2 диапазон оценок разбит на 32 интервала. Вид гистограммы свидетельствует в пользу надежности оценок, поскольку при больших значениях оценок наблюдается много ошибок, а при малых значениях (близких к нулю) -мало, точнее, при значениях оценок распознавания меньших 6/32 ошибки вообще отсутствуют. Стоит отметить, что для исследуемой OCR распределение количества оценок в зависимости от значения оценки, приведенное на рис. 3, показывает на преобладание низких оценок.

Однако, несмотря на хорошие характеристики OCR все равно распознает с ошибками. Некоторые характерные ошибки связаны со сходством образов различных символов (например, "с" и "е") или со сходством частей символов (например, часть образа символа "Й" совпадает с образом символа "И").

В дескрипторе текстовой особой точки альтернативы используются для уменьшения цены замены для сходных по начертанию символов. Например, матрица альтернатив из табл. i описывает слова "HOPE" и "HCPE" как идентичные. Необходимость альтернатив объясняется возможными ошибками распознавания. В данном случае ожидается возникновение ошибок распознавания символа "O" в слове " HOPE". В табл. i указана нулевая оценка соответствия символов "C" и "O", однако на наборе распознанных документов можно подобрать ненулевую оценку символа "C" так, чтобы ненулевое расстояние Plev("HOPE", "HCPE") было существенно небольшим, что позволяло бы считать близкими слова "HOPE" и "HCPE" и считать их идентичными.

;,..г.........

I

(1..

£ S

tfdcftitftiiicfiiiiti

iiefcitfdrfrfcfclddrfdrfrfridd

Оценка оаспознавания

Рис. 2. Гистограмма количества ошибок распознавания в зависимости от оценок распознавания

о 18000

Е

J 16000

5

ч

В 14000

12000

Вертикальная ось [значений} \

lobuu

6000 4000 2000

0

о о г.' о" о о о о а о о" о о о о г.' о о о о с.' с.' о о с.' о" о" о" о"

Опенка саспознэбэния

Рис. 3. Гистограмма распределения количества оценок в зависимости от значения оценки

Таблица 1

Пример матрицы альтернатив ядра текстовой особой точки

H(0) 0(0) P(0) E(0)

для остальных символов цена замены равна i С(0) для остальных символов цена замены равна i для остальных символов цена замены равна i

для остальных символов цена замены равна i

тив:

В дескрипторе распознанного слова ядро может быть представлено в форме матрицы альтерна-

(4)

si(pii), Si(p2i), ... si(pni); S2(pi2), S2(p22), ... S2(pn2);

m (pi , m m (pi, m), . Sm(pnm).

В этом представлении py - оценка соответствия распознанного образа знакоместа Ci символу Sj из алфавита распознавания. m - объем алфавита распознавания. Оценки pj находятся в диапазоне 0...i, самой лучшей оценкой считается 0. Для каждого знакоместа известна рамка F(C)

Представление ядра текстовой особой точки (3) может использоваться при вычислении модифицированного расстояния Левенштейна. Например, если ядро T(W) - это набор символов без оценок {si, s2... sn}, то при вычислении функции штрафа за несоответствие знакоместа Ck и символа вычисляется как

substCost(Ck, Si) = i - min (wkj).

С помощью матрицы распознанного слова (4) функция substCost вычисляется следующим образом:

substCost(Ck, Si) = i - min (wkj ■ pj).

Модель созвездия. Некоторые текстовые особые точки являются уникальными в некоторой окрестности. Это позволяет надежно идентифицировать границы соседних слова и полей. Но, разумеется, не все слова, ограничивающие поля, являются уникальными. Однако в тексте делового документа можно задать подмножество слов документа, являющееся уникальным для некоторой окрестности.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Различные отношения между текстовыми особыми точками (отношения выше - ниже, справа -слева или геометрическое расстояние между рамками) позволяет объединять текстовые точки в созвездия. Далее в качестве созвездий мы будем рассматривать текстовые строки и параграфы, состоящие из нескольких строк. Модель созвездия Ь состоит из последовательности цепей

Ь = {С1(Ь), С2(Ь), ..., С+1(Ь), С+2(Ь), ..., С-1(Ь), С-2(Ь), ... }, (5)

где каждая цепь С(Ь), С+(Ь), С-(Ь), состоит из последовательности обобщенных термов

С(Ь) = {ГШ1(Ь, С), ГШ2(Ь, С), ... Ттп(Ь, С)}.

Обобщенный терм Тт(Ь, С) определяется как множество альтернатив дескрипторов текстовых особых точек Ж1(Тт/Ь, С)), W2(Tmi(Ь, С)),... и расстояний

ё11(Тт,(С)), ё21(Тт(С)), ё12(Тт(С)) , ё22(Тт,(С)) ... между данным термом Tmi и предыдущим термом Тт^ при />1. Для каждого терма задано максимально допустимое значение обобщенного расстояния Левенштейна с1(Тт(С)). В самом простом случае обобщенный терм состоит из единственного дескриптора, для которого не указаны отношения с предыдущим термом. Альтернативы дескрипторов соответствуют случаю, когда соответствующие слова в статическом тексте гибкого документа могут быть заменены другими словами. Каждый из указанных порогов йк(Тт(Ь, С)) является параметром условий

ркТ(Ттг-1(Ь, С), Тт(Ь, С)) < ё1к^(Тт1(Ь, С));

(6)

ркТ(Тт-1(Ь, С), Тт(Ь, С)) > ^к(Тт(Ь, С)), где ркт - одна из возможных метрик между двумя термами. Примерами таких метрик являются: количество слов между двумя термами или расстояние, вычисляемое с помощью рамок текстовых особых точек, входящих в термы. На рис. 4 расстояние между термами Тт1 и Тт4 может быть оценено следующими как 2 (количество между термами Тт1 и Тт4) или как разница между левой координатой рамки терма Тт1 и правой координатой рамки терма Тт2.

Tmi Tm2 Ттз Тт4

Рис. 4. Пример для вычисление расстояния между термами

В самом простом случае цепь состоит из единственного обобщенного терма. Определение цепи позволяет описать уникальную последовательность термов, отличающуюся от других цепей в контексте созвездия. Окрестностью особенности является созвездие.

Построение модели созвездий проводится с целью создать последовательность уникальных цепей, позволяющую установить соответствие между термами созвездия и распознанными словами образа документа. В определении созвездия некоторые цепи могут не быть уникальными в контексте строки. Например, модель созвездия может содержать несколько одинаковых слов.

Привязкой созвездия называется установление соответствия модели созвездия и совокупностей распознанных объектов (слов, строк, параграфов). Простым способом привязки созвездия является использование мешка слов. Для деловых документов этот способ не является эффективным для созвездий, в которых мешок слов не является уникальным по сравнению с другими созвездиями.

Алгоритм координации набора моделей созвездий и строк распознанного документа. Опишем алгоритм координации набора моделей созвездий и строк распознанного документа. Модели созвездий L,- содержат последовательность подробных описаний обобщенных термов и цепей с возможными альтернативами. Для каждого созвездия известна четырехугольная рамка F(L), являющаяся ограничивающим четырехугольником созвездия. Рамки упорядочивают набор созвездий. Дополнительно для каждого из созвездия могут быть заданы несколько условий вида: рамка F(L) размещена ниже рамки F(Lj);

рамка F(L) размещена выше рамки F(L); (7)

созвездия Li не существует, если существует созвездие Lj или цепь C(Lj); созвездия Li не существует, если не существует созвездия Lj или цепь C(Lj).

На первом этапе устанавливается соответствие (привязка) распознанных слов { ^RECi, WREC2 ...} одной или нескольким моделям созвездий {L 'i, L'2, ...}. Для каждого из термов Tmi(L'i, Cp) находятся одно или несколько близких к ним распознанных слов ^RECq:

PLEv(T(Tm,<L ' „ Cp)), WWRECq) < d(Tm(L'„ Cp)). (8)

Кандидаты ^RECq на роль терма Tm(L'i, Cp) проверяются на соответствие последовательности термов в цепи Cp(L'i). А именно из всех кандидатов на роль терма выбирается такие, что оценка последовательности термов цепи Cp(L'i) минимизируется:

8(Cp) = max( pu,y(T(Tml(L',, Cp)), WRECq)) ^ min. (9)

При вычислении оценки в форме (9) требуется привязка всех термов цепи. В (9) каждый терм вносит штраф за несоответствие к привязанному распознанному слову, в случае идеальной привязки штраф равен нулю. Для сильно зашумленных или сильно искаженных образов документов это сделать невозможно из-за отсутствия привязки некоторых термов. Описанная проблема решается игнорированием некоторых термов при расчете оценки (9). Другим способом является применение более слабой оценки:

S2(Cp) = £ (рLEv(T(Tm,(L'„ Cp)), WRECq) > d(Tm(C))) ^ min. (9')

Для нахождения оптимума (9) требуется переборный алгоритм. Перебор упрощается из-за ограниченного объема словарей возможных слов статического текста в деловых документов. В таких документах число кандидатов для большинства термов ограничено, например, значениями 1-3. Проверка условия (6) существенно уменьшают число кандидатов на роль термов цепи. Поэтому допустим полный перебор вариантов. Результатом привязки цепи является выделение упорядоченного множества распознанных слов, каждое из которых соответствует какому-либо терму цепи.

После привязки известна оценка привязки цепи 5(Cp(L',)). Для каждого терма Tmi цепи оценка привязки вычисляется с помощью выражения:

5(Tm,) = min(pLEv(T(Tm), W^q), 5(Tmw)), (10)

где WRECq - каждое из слов, которые отождествлены с термом Tmi. При этом должны быть выполнены условия (8).

Оценка 5(Tmi+1) вычисляется для каждого из WRECq - каждое из слов, которые отождествлены с термом Tmi. Использование минимума позволяет выбрать цепь с наилучшей оценкой термы с наихудшим отождествлением. Алгоритм привязки цепи C состоит в следующем. Вначале для первого терма Tmi(C) находятся распознанные слова, каждое из которых можно отождествить с ядром T(Tmi(C)) этого терма. Для каждого из кандидатов WRECq рассматривается привязка оставшейся части цепи {Tm2(C), ... Tmn(C)}. Далее рассматривается аналогичная привязка терма Tm2(C). Для каждого из этих кандидатов на привязку к терму Tm2(C) проверяется выполнение условий (6). То есть с помощью условий (6) проверяются отношение между рамками пары слов-кандидатов на роль битерма [11] {Tmi(C), Tm2(C)}. Для каждого из прошедшие проверку кандидатов WRECq рассматривается привязка оставшейся части цепи {Tm3(C), ... Tmn(C)}. Используется оценка (10), базирующаяся на оценке близости ключевого слова и распознанного слова. Применение ограничений (6) позволяет существенно уменьшить число кандидатов на роль очередного битерма.

Привязка созвездий основана на описании созвездий и множестве распознанных слов. Границы распознанных слов могут быть найдены с ошибками. Существенными ошибками являются слияние нескольких слов в одно слово и разбиение одного слова на несколько слов. Для таких случаев требуется алгоритм, использующий границы отдельных букв в представление части символов строки без пробелов, В этом представлении проводится поиск подстрок, не привязанных ранее к текстовым особым точкам. При этом величина порога d(W) уменьшается по сравнению величиной порога привязки, используемой ранее на шаге привязки строк. Такой алгоритм позволяет найти ключевые слова как подстроки в последовательности символов, ограниченных уже отождествленными словами. При этом для каждой найденной подстроки из ограниченного словаря известны границы рамки, содержащей все ее символы. Последнее соображение помогает избежать существенных расходов на перебор возможных подстрок строгими алгоритмами [10].

После привязки цепей определяются созвездия. Каждая из цепей, образующих созвездие (5) влияет на идентификацию созвездия:

{Ci(L'), C2(L'), ...} - оценка привязки созвездия основана на оценках привязанных цепей этой группы S(L') = min (b(Cp(L')));

{C+i(L't), C+2(L'i), ...} - устанавливается наихудшая оценка привязки созвездия S(L), если не привязана хотя бы одна цепь из этой группы;

{C-i(L'), C-2(L'), .} - устанавливается наихудшая оценка привязки созвездия S(L'i), если привязана хотя бы одна цепь из этой группы.

В случае неоднозначной классификации созвездий применяются проверки их взаимного расположения с помощью условий (7).

Результат привязки созвездий и содержащихся в них цепей состоит в детектировании термов созвездия. Это позволяет ограничивать области для дальнейшего детального исследования, например, для распознавания полей, ограниченных несколькими ключевыми словами цепи.

Рассмотрим несколько примеров цепей и созвездий.

Для классификации типа документа может быть использован набор созвездий {C1, C2, ... Cn}, каждое из которых соответствует некоторому классу документов, при этом задана функция расстояния между документом D и созвездием С: r(D, С). Созвездия ранжируются по расстоянию между документом и каждой из моделей, результат представляется оценками всех моделей

r1=r(D, Cj1), r2=r(D, Q2), ... rn=r(D, Cin), 1<ip<n, Г1<Г2<.<Гп.

После ранжирования рассматриваются только созвездия, расстояние до которых не превышает некоторого порога m:

r1=r(D, Cjl), ... rq=r(D, Cj ), 1<ip<n, r1<...<rq<m, 1<q<n,

либо выбирается ближайшая к документу созвездие С;1. Созвездия имеют следующий вид:

LUP l ldown

где цепь LUP ограничивает зону созвездия сверху, LDOWN - снизу, а цепь L состоит из термов Tm1(L), Tm2(L), ..., каждый из которых, начиная с Tm2(L), существенно удален от предыдущего терма. Например, расстояние между четырехугольными рамки термов Tmi-1(L) и Tmi(L) не должны быть менее заданного заранее расстояния. В этом случае условие (6)

ркт(Тт,-:(Ь), Тт(Ь)) > сС2к(Тт(Ь)) обеспечивает инвариантность отношения порядка между двумя термами относительно возможных преобразований в гибком документе. В привязке описанных созвездий не требуется привязка всех термов. Оценка такой привязки проводится по формуле (9 ' ).

На рис. 5 приведен пример параграфа. Некоторые слова параграфа могут переноситься на следующую строку. Для привязки параграфа может быть использована цепь следующего вида:

Ьир, Ь, Ьш™ (11)

где цепь Ьир ограничивает зону параграфа сверху, Ьш™ - снизу, а цепь Ь состоит из термов Тт1(Ь), Тт2(Ь), ... Для некоторых битермов в идеальном случае выполнено условие:

ркТ(Тт,-1(Ь), Тт(Ь)) < 1.

Другие битермы определяют границы полей для извлечения атрибутов документа (рис. 2). Цепи Ьир и Ьш™ могут включать слова параграфа или размещаться вне области параграфа.

КОРРЕКТИРОВОЧНЫЙ СЧЕТ-ФАКТУРА № СШ 01 ' 111 -[...... ЦЦ-1-1 си.

ИСПРАВЛЕНИЕ КОРРЕКТИРОВОЧНОГОСЧЕТАФАКТУРЫ № 1 1 *_- ■ )1а)

к СЧ ЕТ У-ФАКГУРЕ (ечетаи -фас турам) №

СШ от

' • ' 01 1 - 1

с учетом исправления № от С Э

КОРРЕКТИРОВОЧНЫЙ СЧЕТ-ФАКТУРА |(Ы<:1|йшйы| (I)

ИСГ1РА61ЕНИЁ КОРРЕКТИРОВОЧНОГО СЧЕ ТА-ФАПУРЫ N9 (I э)

»СЧЕТУ-ФДКГУР^Ц^Ид^д^^^Зс^еиимлкилмдиН; (16)

Корр«ктнроБ0чныи счет-фактура № >я " ^»«и™ ^п исправление цорректи р^вочного счета-фактуры

К счету-фактуре (ечета^аяурам^ГйДл^^^^^П. с учетом не правления'' О: О

Рис. 5. Примеры цепи в виде 2-х, 3-х и 4-х строк

Текстовые строки также описываются видом (11). Если строка отличается от всех строк документа или фрагмента документа, то для ее привязки достаточно одной цепи. Эта цепь содержит последовательность термов, базирующихся на обязательных и запрещенных ключевых словах (см. определение цепи (5)). Если строка не имеет уникальных слов в контексте документа или фрагмента документа, цепи Ьир и Ьш™ позволяют ограничить область привязки к распознанным объектам. Таким образом можно привязать строки, не содержащие ключевых слов.

Метод обучения.

Обучение предложенного метода состоит в формировании цепей, позволяющих надёжно классифицировать созвездия в пределах одной страницы или одного многостраничного документа. Также созвездия могут применяться для классификации типов документов в потоке с несколькими типам.

С помощью методов машинного обучения могут быть найдены уникальные ключевые слова или простые цепи, например, битермы. Для этого требуется репрезентативный датасет. Однако получение репрезентативного датасета является не всегда выполнимой задачей. Зачастую для обучения предоставляется ничтожное число образцов (1-2). Из такого количества образцов формирование репрезентативной выборки представляется очень сложной задачей. Приемлемое обучение на сверхмалой выборке состоит в следующем:

формирование цепей для документов без ошибок;

аугментация цепей согласно известным причинам изменения статического текста в гибких документов.

Аугментация цепей должна соответствовать возможностям искажения структуры деловых документов, перечисленные во введении настоящей статьи. Например, необходимо учитывать возможность переноса длинных строк. Также в аугментации цепей требуется учитывать ошибки распознавания. Например, в условиях (6) ограничивающих расстояние между термами в распознанном тексте, не имеет смысла указывать С1,(Тт,(С))=1. Причиной является возможность появления между двумя термами ложных распознанных слов.

Алгоритм привязки полей. Привязка полей как таковая существенно более проста, чем привязка созвездий. Поле р определяется с помощью термов двух цепей следующим образом:

Ь'P'REV(P), р, ьМЕХТ - для поля, размещенного между двумя цепями;

Ьркет(р), р - для поля, ограниченного цепью слева;

р, ьМЕХТ - для поля, ограниченного цепью справа.

Поля, которых не ограничены Ьркет(р) или ЬШХГ, привязываются с помощью созвездия Ьир, Ь,

ЬБО™

Точный прогноз рамки поля р возможен, если привязаны ближайшие к рамке поля термы. А именно, левая граница поля р определяется точно, если найден самый правый (самый последний) привязанный терм Ттркет(р) цепи Ьркет(р). Аналогично правая граница поля р определяется точно, если

найден самый левый (самый первый) привязанный терм TmNEXT(F) цепи LNEXT(F). Верхняя и нижняя граница рамки поля F определяются с помощью верхней и нижней границ цепей LPREV(F) и LNEXT. Термы TmPREV(F) и TmNEXT(F) могут задать рамки как однострочного, так и многострочного поля.

Точность прогноза границы поля зависит от гибкости документа и зашумления документа. Для прогноза границу поля разумно применять утверждений нечеткой логики над формальным описанием структуры документа [i2,i3]. Утверждения нечеткой логики формируются в процессе анализа обучающей выборки документов. Однако малый объем выборки может не позволить обучить механизм прогноза границы поля. В последнем случае для прогноза применяются простейшие утверждения. Например, для случаев двух напечатанных слитно слов необходимо допускать нулевое расстояние между границей поля и границей соответствующего ограничивающего терма.

Если не найден ближайший привязанный терм TmPREV(F) цепи LPREV(F), то возможен прогноз с помощью других привязанных термов цепи LPREV(F). Разумеется, точность прогноза при этом снижается. Для этого в предлагаемом методе применяется второй шаг привязки. На втором шаге делается попытка найти границы слов, распознанных с большим числом ошибок, а также слов, разбитых на части или объеденных с другими словами.

Найденная рамка поля может быть использована для:

повторного распознавания с уточненными параметрами, например, характеристиками шрифта, использованного для печати заполнения поля;

детектирования содержимого поля, например, наличия подписи или рукописной пометки;

сохранения образа для предъявления во время просмотра.

Результаты экспериментов. Предложенный метод привязки созвездий был протестирован на собственном тестовом наборе, состоящим из образов документов типов «Согласие» и «Доверенность», отсканированных с оптической плотностью от i00 до 300 dpi с различным качеством оцифровки. Приватный датасет был использован по причине сложности или невозможности получить образы документов, содержащих персональную информацию. Эта проблема отмечается в работе [i4].

Исследовалось точность привязки строк и многострочных параграфов. Для распознавания использовался SDK Smart Document Engine [7]. Полученные результаты сведены в табл. 2, иллюстрирующую эффективность предложенного метода.

Таблица 2

Точность привязки созвездий для тестовых наборов деловых документов_

Документ Количество документов Число строк в модели документа Число параграфов в модели документа Число ошибок привязки Доля ошибок привязки в общем числе ошибок распознавания

Договор 240 ii 6 9 1,46%

Согласие 119 ii 6 i0 0,49%

Поручение 240 4 i 7 2,91%

Предложенный метод привязки созвездий был применен для классификации типов документов

[16]. Для двух типов документов были созданы созвездия Mconsent (32 текстовые особые точки) и Mattorney (30 текстовых особых точек), каждый документ состоял из одной зоны. Описанный метод классификации зон был применен для классификации документов. Кроме наличия положительных детекторов проверялись инвариантные отношения по вертикали между рамками текстовых особых точек. Для распознавания также использовался SDK Smart Document Engine. Качество алгоритма оценивалось критериями

[17]:

Precision = tp / (tp + fp); Recall = tp / (tp + fn), в которых использовались следующие значения:

число правильно классифицированных документов своего класса tp; число отвергнутых классифицированных документов своего класса fp; число отвергнутых классифицированных документов чужого класса tn; число ложно классифицированных документов чужого класса fn.

Полученные результаты классификации сведены в табл. 3. Ошибки fp были связаны с ошибками распознавания в засвеченных областях.

Таблица 3

Результаты эксперимента классификации типа документа_

^consent ^attorney

tp=331 fp=2 tp=307 fp=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

tn=308 fn=0 tn=333 fn=0

Precision = 0,99 Recall = 1 Precision = 0,99 Recall = 1

На этом же датасете была оценена точность привязки полей с помощью предложенного метода. Точность определялась как доля корректно привязанных полей к общему числу поле во всех документах датасета. Документ "Consent" содержал ii полей, 4 поля являлись многострочными. Документ "Attorney" содержал i5 полей, 4 поля являлись многострочными.

Точность привязки составила 95,7% для документа "Consent" и 93,9% для документа "Attorney". Не было найдено 1,2% полей документа "Consent" и 0,3%документа "Attorney". Ошибки привязки объясняются ошибками распознавания символов в засвеченных областях.

Заключение. Предложенный метод привязки созвездий предназначен для анализа содержимого документов в потоке документов. Метод оперирует словами распознанного делового документа. Предполагается низкое качество оцифровки документов, связанное с зашумлением документов и неконтролируемому качеству оцифровки. Также предполагается вариативность структуры документов, допускающая изменение статического текста, линий, таблиц, пометок и других частей бланка делового документа. В предложенном методе привязке учтены вариации структуры и большое число ошибок распознавания символов и поиска границ слов.

Достоинством метода привязки созвездий является возможность обучения на малом датасете. Особенностью такого обучения является отсутствие предположений о частоте появления вариаций в реальном потоке документов. Обучение на малом датасете предполагает значительную часть ручной настройки, которая обеспечивает учет большого числа параметров модели созвездий и высокую точность привязки.

Предложенный метод привязки созвездий применим для анализа содержимого распознанных документов. При извлечении полей гибких текстовых документов предложенный метод обеспечивает как высокую точность распознавания полей, так и высокую точность проверки классификации документа.

Список литературы

1. Rusinol M., Frinken V., Karatzas D., Bagdanov A.D., Llados J. Multimodal page classification inadministrative document image streams // In: IJDAR. 2014. Vol. 17, no. 4. P. 331 - 341.

2. Hjouji A., EL-Mekkaoui J., Jourhmane M. Image Classification by Mixed Finite Element Method and Orthogonal Legendre Moments // Pattern Recognition and Image Analysis. 2020. Vol. 30. P. 655 - 673.

3. Karkishchenko A.N., Mnukhin V.B. On the Metric on Images Invariant with Respect to the Monotonic Brightness Transformation // Pattern Recognition and Image Analysis. 2020. Vol. 30. P. 359 - 371.

4. Slavin O.A., Farsobina V., Myshev A.V. Analyzing the content of business documents recognized with a large number of errors using modified Levenshtein distance // Cyber-Physical Systems: Intelligent Models and Algorithms. Springer Nature Switzerland AG, 2022. Vol 417. P. 267 - 279.

5. Andreeva E., Arlazarov V.V., Slavin O., Mishev A. Comparison of scanned administrative document images // Proceedings of SPIE, 2020. Vol. 11433: Twelfth International Conference on Machine Vision. Art. ID: 114333A. P. 1 - 8.

6. Rodehorst V., Koschan A. Comparison and evaluation of feature point detectors // 5 th International Symposium Turkish-German Joint Geodetic Days, 2006. [Электронный ресурс] URL: www.pdfs.semanticscholar.org/1d8a/4cff206e229f480b8c92fc04f67f231cc788.pdf (дата обращения: 19.08.2022).

7. Skoryukina N., Arlazarov V., Nikolaev D. Fast Method of ID Documents Location and Type Identification for Mobile and Server Application // IEEE International Conference on Document Analysis and Recognition (ICDAR). 2019. P. 850 - 857.

8. Yujian L., Bo L. A Normalized Levenshtein Distance Metric // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007. Vol. 29, no. 6. P. 1091 - 1095.

9. Chernyshova Y.S., Sheshkus A.V., Arlazarov V.V. Two-step CNN framework for text line recognition in camera-captured images // IEEE Access. 2020. Vol. 8. P. 32587 - 32600.

10. Aho A.V., Corasick M.J. Efficient string matching: An aid to bibliographic search // Communications of the ACM. 1975. Vol. 18, no 6. P. 333 - 340.

11. Yarn X., Guo J., Lan Y., Cheng X.A. Biterm topic model for short texts // Proceedings of the 22Nd International Conference on World Wide Web. 2013. P. 1445 - 1456.

12. Postnikov V.V. Flexible Forms Identification // Proceedings of the 5th German-Russian Workshop on Pattern Recognition and Image Understanding (GRWS98). Hamburg: Infix, 1999. P. 134 - 132.

13. Postnikov V.V. Identification and Recognition of Documents with a Predefined Structure // Pattern Recognition and Image Analysis. 2003. Vol. 13, no 2. P. 332 - 334.

14. Awal A.M., Ghanmi N., Sicre R., FuronT. Complex document classification and localization application on identity document images // 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017. P. 426 - 431.

15. Smart Document Engine - automatic analysis and data extraction from business documents for desktop, server and mobile platforms. [Электронный ресурс] URL: https://smartengines.com/ocr-engines/document-scanner (дата обращения: 22.04.2022).

16. Slavin O.A., Tarhanov I.A., Arlazarov V.L. Models and methods flexible documents matching based on the recognized words // Cyber-Physical Systems: Advances in Design & Modelling. Springer Nature Switzerland AG., 2021. Vol. 350. P. 173 - 184.

17. Larkin E.V., Bogomolov A.V., Ivutin A.N. Statistical estimations of transaction flows in multi-component information systems // Distributed computer and communication networks: control, computation, communications (DCCN-2017). M., 2017. P. 596 - 603.

Славин Олег Анатольевич, д-р техн. наук, главный научный сотрудник, oslavin@isa.ru, Россия, Москва, Федеральный исследовательский центр «Информатика и управление » Российской академии наук

APPLICA TION OF CONSTELLATIONS OF TEXT SINGLE POINTS FOR ANALYSIS OF THE CONTENT

OF RECOGNIZED TEXT DOCUMENTS

O.A. Slavin

The paper considers a method for analyzing the content of recognized text documents based on the model of constellations of text singular points - words that are unique for some neighborhood of the text. Point descriptors extracted from document images using a character recognition system are considered. Matching of words with recognition errors is carried out on the basis of the modified normalized Levenshtein distance. Constellations of textual keypoints are described as sets of chains, and chains are described as sequences of generalized terms, which are defined as sets of textual keypoints that may appear in a particular place in a document. An algorithm for searching for a match between a set of words in a recognized document and a set of constellation models is described. The problems of classification and binding of document fields are considered. The results of an experimental verification of the implementation of the algorithm on test data sets of business documents are presented.

Key words: business documents, document recognition, Levenshtein distance, text singular point, constellation of points, generalized term.

Slavin Oleg Anatolyevitch, doctor of technical sciences, chief researcher, oslavin@isa.ru, Russia, Moscow, Federal Research Center «Informatics and Management» of the Russian Academy of Sciences

УДК 61.614.23

DOI: 10.24412/2071-6168-2022-9-84-90

ОСОБЕННОСТИ ПРОЕКТИРОВАНИЯ БАЗ ДАННЫХ ДЛЯ АВТОМАТИЗИРОВАННОГО РАБОЧЕГО МЕСТА ВРАЧА-НУТРИЦИОЛОГА

Р.С. Хлопотов

В статье представлены результаты аргументации перечня информации, необходимой для разработки персонифицированного рациона питания, удовлетворяющего требованиям нутрициологии и диетологии. В результате анализа сформированного перечня обоснован состав комплекса баз данных, наличие которых позволит адекватно реализовать функционал автоматизированного рабочего места врача-нутрициолога.

Ключевые слова: цифровая нутрициология, системная инженерия, программная инженерия, система планирования диетического питания, медицинская информатика, база данных, система управления базой данных.

В современном мире в сфере медицинских услуг формируются и накапливаются большие объемы медицинских данных [1, 2]. От того, насколько своевременно и эффективно весь объём информации используется врачами разной специальности зависит качество оказываемых специалистами медицинской консультации и помощи [3, 4]. Не является исключением и врач-нутрициолог: для оптимизации организации и непосредственного оказания им консультативно-диагностических услуг крайне важным является как эффективное использование всей накопленной информации, так выявление и использование неявных закономерностей и тенденций, выявляемых с помощью специального анализа [5, 6]. Решение этих задач обуславливает актуальность создания и использования автоматизированных информационно-аналитических систем в практике врача-нутрициолога [7-9].

Следует отметить, что разработка такой автоматизированной системы является достаточно сложной, многоплановой и трудоёмкой задачей, предполагающей разработку всех видов ее обеспечения: лингвистического, технического, информационного, программного, математического, а также осуществления ряда организационных мероприятий, обеспечивающих функционирование создаваемой системы [10].

Предлагаемая схема информационной интеллектуальной поддержки деятельности врача-нутрициолога представлена на рис. 1.

Рекомендуемая схема предусматривает основные этапы деятельности врача-нутрициолога при организации консультативно-диагностического процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.