Научная статья на тему 'Распознавание таблиц монтажных карточек технической железнодорожной документациии'

Распознавание таблиц монтажных карточек технической железнодорожной документациии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
196
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННАЯ БАЗА ДАННЫХ / ПАКЕТЫ ПРОГРАММ РАСПОЗНАВАНИЯ / ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИЗОБРАЖЕНИЯ / РАСПОЗНАВАНИЕ ТАБЛИЦ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бурсиан Е. Ю.

Рассматривается автоматизированный процесс распознавания изображения таблиц, встречающихся в монтажной документации для систем железнодорожной автоматики. В предлагаемом подходе решающими факторами распознавания листа монтажной документации являются предварительная обработка изображения, направленная на устранение помех и шумов, определение структуры таблицы и исправление деформированных горизонтальных и вертикальных линий таблицы. Предлагаемые алгоритмы используются при автоматизации проектирования электронной базы данных железнодорожной документации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Recognition of Assembly Cards Tables of the Technical Railway Documentation

The author considers the automated process of recognizing the image of tables encountered in the assembly documentation for the systems of railway automatics and proposes the methods and means of preliminary processing aimed at interference and noise elimination as well as the methods of search and removal of casual ruptures of horizontal and vertical lines forming the tables of the assembly documentation. The proposed algorithms are used in automating the design of an electronic database of railway documentation.

Текст научной работы на тему «Распознавание таблиц монтажных карточек технической железнодорожной документациии»

Общетехнические и социальные проблемы

149

Библиографический список

1. Оценка коррозионного износа рабочей арматуры в балках пролетных строений автодорожных мостов / А. И. Васильев // Бетон и железобетон. - 2000. - № 2. - С. 20-23.

2. Оценка коррозионного износа рабочей арматуры в железобетонных элементах по величине раскрытия трещины в защитном слое бетона / А. В. Бенин, Н. И. Невзоров // Строит. механика инж. конструкций и сооружений. - 2007. - № 3. - С. 48-52.

3. Коррозия и защита арматуры в бетоне / С. Н. Алексеев. - М. : Госстройиздат, 1962. - 187 с.

4. A three-invariant smooth cap model with mixed hardening / L. E. Schwer, Y. D. Murry // Int. J. for Num. And Anal. Mech. In Geomech. - 1994. - Vol. 18. - PP. 657688.

5. Прочность и деформации бетона в расчетах конструкций / В. В. Тур, Н. А. Рак. - Брест : БГТУ, 2003. - 252 с.

6. Mesoscopic model to simulate the mechanical behavior of reinforced concrete members affected by corrosion / P. J. Sanchez, A. E. Huespe, J. Oliver, S. Toro // Int. J. Solids and Structures. - 2010. - № 47. - PP. 559-570.

7. Finite element analysis of the effects of radial expansion of corroded reinforcement / Y. G. Du, A. H. C. Chan, L. A. Clark // Computers and Structures. - 2006. - № 84. - PP. 917-929.

8. Simulation of coupled corrosive product formation, migration into crack and propagation in reinforced concrete sections / K. Toongoenthong, K. Maekawa // J. of Advanced Concrete Tech. - 2005. - № 3. - PP. 253-265.

9. Modelling the effect of corrosion on bond in reinforced concrete / K. Lundgren // Magazine of Concrete Research. - 2002. - № 54. - PP. 165-173.

10. Experimental and numerical investigation of corrosion-induced cover cracking in reinforced concrete structures / D. V. Val, L. Chernin, M. G. Stewart // J. Struct. Eng. - 2009. -№ 135. - PP. 376-385.

11. Cover cracking as a function of bar corrosion: Part I-experimental test / C. Andrade, C. Alonso, F. J. Molina // Mater. Struct. - 1993. - № 26. - РР. 453-464.

12. Analyzing crack width to predict corrosion in reinforced concrete / T. Vidal, A. Castel, R. Francois // Cement and Concrete Research. - 2004. - № 34. - РР. 165-174.

Статья поступила в редакцию 18.04.2010;

представлена к публикации членом редколлегии А. В. Индейкиным.

УДК. 681.300 Е. Ю. Бурсиан

РАСПОЗНАВАНИЕ ТАБЛИЦ МОНТАЖНЫХ КАРТОЧЕК ТЕХНИЧЕСКОЙ ЖЕЛЕЗНОДОРОЖНОЙ ДОКУМЕНТАЦИИИ

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

Рассматривается автоматизированный процесс распознавания изображения таблиц, встречающихся в монтажной документации для систем железнодорожной автоматики. В предлагаемом подходе решающими факторами распознавания листа монтажной документации являются предварительная обработка изображения, направленная на устранение помех и шумов, определение структуры таблицы и исправление деформированных горизонтальных и вертикальных линий таблицы. Предлагаемые алгоритмы используются при автоматизации проектирования электронной базы данных железнодорожной документации.

электронная база данных, пакеты программ распознавания, предварительная обработка изображения, распознавание таблиц.

Введение

Во многих областях деятельности происходит рост информационных потоков, что вызывает необходимость создания электронного документооборота. Задача перевода технических документов и создания на её основе электронных баз данных стоит также и перед железнодорожной отраслью, в частности, имеет место необходимость построения электронной базы данных монтажной документации для систем железнодорожной автоматики [3], [6].

Значительная часть документации представлена в виде рукописных таблиц. При этом в значительной части случаев структуру листа монтажной документации составляют основная таблица, второстепенные таблицы, изолированные или связанные с основной, и фрагменты внетабличного текста.

Важной задачей обработки изображения листа монтажной документации является обнаружение основной таблицы и распознавание её структуры, так как при правильном распознавании текста без определения структуры основной таблицы будет невозможно дать ему правильную интерпретацию и ввести в электронную базу данных систем железнодорожной автоматики.

С целью автоматизации процесса обработки отсканированной монтажной документации необходимо разработать методы и средства распознавания изображения рукописных таблиц. Данная работа относится к области исследования задач распознавания текста, представленной значительным количеством публикаций, как касающихся основ теории распознавания, так и имеющих прикладное значение.

Из отечественных авторов известными являются теоретические работы Ю. И. Журавлёва и работы прикладного характера Н. Д. Горского, Л. М. Местецкого, Я. А. Фурмана [1], [2]. Специальным задачам обработки технической документации и видеоизображений применительно к железнодорожной отрасли посвящены работы М. Н. Василенко, А. Б. Погребняка, В. А. Царёва. В развитие задач анализа и обработки

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

151

изображений значительный вклад внесли зарубежные исследователи R. C. Gonzalez, T. Y. Zhang, C. Y. Suen [3], [4].

На основе разработанных теоретических положений были созданы пакеты программ технического чтения, в частности: ABBYY FineReader, ABBYY FormReader, CuneiForm, OmnPage, ReadirisPro. Применение данных пакетов к обработке изображений листов монтажной документации не всегда является эффективным, так как значительная часть документов была создана с помощью чертёжных рукописных шрифтов, получена от матричных принтеров либо подвергалась многократному копированию.

1 Постановка задачи

Найти пути совершенствования методов и средств обработки изображения таблиц технической железнодорожной документации, монтажных карточек и схем комплектации с целью автоматизации процесса создания электронной базы данных систем железнодорожной автоматики. При этом необходимо также создать инструменты предварительной обработки изображения для устранения дискретного характера линий таблиц.

Предлагаемые инструменты должны соответствовать особенностям монтажной документации, значительным размерам изображения (при сканировании с dpi 300 линейные размеры - несколько тысяч пикселей) и наличию на изображении таблицы, занимающей почти всю площадь листа, структура которой относится к одному из нескольких десятков структурных типов таблиц монтажной документации.

2 Предварительная обработка изображения таблицы монтажной докуметации

Задачу предварительной обработки изображения таблиц монтажной документации предлагается решать с помощью низкочастотной и полосовой фильтрации двумерного сигнала, представленного матрицей

Y = [ху ], i = 1,77?, j = 1,п, элементами которой являются градации

яркости пикселей изображения [5], [6].

Матрица X раскладывается по системе ортогональных функций,

представленной матрицами F, F~l, где F - ортогональная или унитарная матрица. При проведении численных экспериментов в качестве преобразования F применялось разложение по функциям Уолша, дискретное комплексное преобразование Фурье и дискретное косинуспреобразование F\X^Y, где Y = FXF,X = F~lYF~l. При этом осуществляется понижение амплитуд при высоких частотах (низкочастотная фильтрация) или повышение амплитуд в выделенной

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

полосе частот (полосовая фильтрация): Y —>• Yx, производится обратное преобразование: Хх =F lYxF \

Производить вычисления с помощью определения функций Уолша с последущим умножением векторов яркости изображения на полученную матрицу значений данных функций с целью преобразования реальных изображений не представляется возможным, так как время работы

рассматриваемого алгоритма пропорционально n (n - длина

обрабатываемого массива).

Для обработки массивов больших объёмов следует использовать алгоритмы быстрых преобразований на основе функций Уолша, время работы которых пропорционально п In п. Можно использовать алгоритм,

состоящий из р шагов, п — 2р(п - размер первоначального преобразуемого массива). На первом шаге исходный преобразуемый массив считается текущим, тип массива полагаем равным 0. На каждом

шаге все текущие массивы размером 2р~к (к - количество предыдущих шагов), разделяются на два последовательных массива.

Если текущий массив имеет тип 0, то в его первую половину записываются последовательно попарные суммы его элементов, во вторую - попарные разности. В альтернативном случае, когда текущий массив имеет тип 1, то в его первую половину записываются последовательно попарные разности, во вторую - попарные суммы.

Каждая из рассмотренных выше половин рассматриваемого массива становится, в свою очередь, текущим массивом на следующем шаге алгоритма с типом 0, если массив был получен из первой части предыдущего, с типом 1 в альтернативном случае.

Таким образом, на каждом шаге алгоритма количество параллельно рассматриваемых массивов удваивается и к каждому вновь рассматриваемому массиву рекурсивно применяется описанная выше процедура, пока размеры всех массивов не станут равными 1.

Комплексное дискретное преобразование Фурье основано на формулах:

2 nikl

F = ехп(-------)

—\к=т—\ 1=т—\

—\к=т-\ 1=т—\

Дискретное косинус-преобразование Фурье можно представить в виде матриц прямого (Р) и обратного (Р 1) преобразования.

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

153

Р =

Р-1 =

Индексы / и j принимают значения от 0 до п — 1. Данное преобразование обладает всеми свойствами преобразования Фурье, но при этом является вещественным и не имеет отрицательных частот.

В экспериментальных исследованиях для всех преобразований применялись алгоритмы быстрых преобразований (использовался метод Кули-Тьюки) с временем работы 0(тп(\пт + 1пп)), так как линейные

размеры обрабатываемых матриц градаций яркости изображения монтажной документации тх п, т е [3500, 5000], Vi £ [4000, 7000].

На рис. 1 изображён фрагмент монтажной карточки полки. Рис. 2 и рис. 3 представляют собой фрагменты таблицы рассматриваемой монтажной документации. Фрагмент таблицы на рис. 2 получен без фильтрации с помощью традиционного алгоритма распознавания горизонтальных и вертикальных линий. Рис. 3 соответствует фрагменту таблицы, полученному отмеченным выше способом, с предварительной фильтрацией изображения на основе разложения по функциям Уолша.

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

<• . IN •’ t‘2 •;-7ч

Ш'-*ЖтсМ‘- v . Off to t:*7.

Л 7-41 / 57-/

О ■з::! -V 7-г -> г з-г

3 г.,' 3 5-/// .

3 7-S/y 4 У ИГ:'

' ./ ,— • •

■ i

" г: * ..

гг S-l/3

Т':’. -* /*.. ■ ■ *■? - *’ ■_ 2/ #9-5

г-. - 23 /8-^

:

«2 33-J/i

.' V 8-f

Рис. 1. Фрагмент монтажной карточки

Рис. 3. Фрагмент таблицы N° 2

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

155

При этом первая вертикальная линия на рис. 3 в отличие от рис. 2 имеет на два разрыва меньше, четвёртая вертикальная линия - на один разрыв меньше. Применение метода предварительной обработки на базе преобразования Уолша позволяет сократить число разрывов

горизонтальных и вертикальных линий таблиц монтажной документации.

3 Автоматическое построение горизонтальных и вертикальных линий для таблицы монтажной докуметации

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Задачу автоматического построения линий таблицы предлагается решать на основе традиционной процедуры поиска длинных

горизонтальных и вертикальных цепочек пикселей, принадлежащих объекту распознавания [4]. При этом предполагается, что таблица представлена системой горизонтальных и вертикальных линий, изображения которых строились в исходном варианте либо от руки, либо на матричном принтере, либо на принтере с высоким качеством печати, изображения линий могли иметь разрывы и полости, вызванные помехами и многократным копированием. Далее подразумевается, что всё сказанное для горизонтальных линий относится также и к вертикальным линиям.

Вследствие дефектов изображения традиционная процедура, указанная выше, позволяет получить только отдельные фрагменты линий. Изображение таблиц монтажных карточек и схем комплектации содержит несколько десятков линий, являющихся почти горизонтальными, то есть отклонения линий таблицы от горизонтали не превышают нескольких градусов. При этом на каждой линии может иметься более десяти разрывов. Таким образом, необходимо применять процедуру поиска всех разрывов на линиях таблицы.

Случаи взаимного расположения фрагментов изображения горизонтальных линий представлены на рис. 4 тремя ситуациями: a, b, с. Ситуация а соответствует разрыву без наложения, случай b - разрыву с наложением, в ситуации с второстепенный фрагмент линии повторяет рисунок линии выше или ниже основного фрагмента. При этом ситуацию d, соответствующую «разветвлению» линии без нарушения связности, целесообразно обрабатывать с помощью процедуры закраски области на растре как один фрагмент.

Рис. 4. Варианты разрывов изображения горизонтальных линий

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

Подавляющее большинство разрывов горизонтальных линий на изображениях монтажных карточек и схем комплектации - разрывы без наложений. Поиск и удаление разрывов без наложения можно эффективно осуществлять с помощью построения диаграммы Вороного для точек, расположенных на концах фрагментов всех горизонтальных линий [7]. При этом решается следующая задача.

На плоскости имеется N точек. Для каждой точки требуется найти все соседние точки, удалённые от данной точки на расстояние не более чем 8. Количество ближайших соседей ограничено параметром т. N точек плоскости - концы фрагментов горизонтальных линий (N = 2А/, М -количество фрагментов).

В данной постановке алгоритм решения задачи является хорошо известным, поиск ближайших соседей производится с помощью диаграммы Вороного.

Определение 1. Пусть на плоскости имеется N точек {р}^. Многоугольником Вороного (ячейкой Дирихле, многоугольником близости) точки р называется множество точек плоскости, для которых

расстояние до точки р меньше, чем для любой другой точки из множества (Р)^. Многоугольник Дирихле точки р обозначим vj (рис. 5);

т =Пкр»рл- где /г(р,р) - множество точек плоскости,

i*j

удалённых от точки P. дальше, чем от точки р, то есть h(P, P ) - это полуплоскость, в которой лежит точка р, при этом граница полуплоскости - прямая, перпендикулярная отрезку р P, проходящая через его середину.

Рис. 5. Многоугольник Вороного

Таким образом, v. - это пересечение N — 1 полуплоскости, причём данное множество является выпуклым многоугольником.

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

157

Определение 2. Многоугольники Вороного задают разбиение плоскости на N областей (рис. 6). Рассматриваемое разбиение называется диаграммой Вороного.

Рис. 6. Диаграмма Вороного

В данном случае следует сделать вывод, что диаграмма Вороного содержит всю информацию о

ближайших соседях заданных точек (Р;)^,

необходимую для решения поставленной задачи о поиске всех соседей, удалённых от каждой точки на расстояние не более чем 8, при условии, что количество ближайших соседей меньше либо равно m.

Поставленную задачу можно решить за время OQn(N)N) + 0(mN), так как диаграмма Вороного для N точек строится за время O(ln(N)N), решение

поставленной задачи получается из диаграммы Вороного за время O( mN).

Поиск разрывов с наложением эффективно производится с помощью традиционной процедуры, основанной на упорядочивании фрагментов

Fi по значениям ординат начальных точек фрагментов.

На основе рассматриваемого метода был создан прототип программы распознавания горизонтальных линий. На рис. 7 представлен фрагмент таблицы монтажной карточки без устранения разрывов. На рис. 8 показан тот же фрагмент после применения процедуры устранения разрывов. При этом с помощью предлагаемого метода были устранены разрывы горизонтальных линий, соответствующие ситуации, в которой второстепенный фрагмент линии повторяет рисунок линии,

расположенной выше, разрыв без наложения в конце первой горизонтальной линии и разрывы без наложения вертикальных линий.

Рис. 7. Фрагмент с разрывами Рис. 8. Фрагмент без разрывов

Экспериментальные исследования, выполненные с помощью прототипа программы распознавания горизонтальных линий, подтвердили эффективность предложенного метода.

Заключение

Анализ структуры и особенностей изображения монтажной документации показал, что приоритетной задачей является распознавание

ISSN 1815-588 Х. Известия ПГУПС

2010/2

Общетехнические и социальные проблемы

основной таблицы на изображении. При этом для изображения низкого качества необходима предварительная обработка изображения, эффективно осуществляемая с помощью низкочастотной фильтрации на базе дискретного преобразования Фурье. Численные эксперименты показали, что при этом в большинстве случаев можно устранить разрывы горизонтальных и вертикальных линий основной таблицы. Поиск оставшихся разрывов эффективно осуществляется с помощью построения диаграммы Вороного.

Библиографический список

1. Избранные научные труды / Ю. И. Журавлев. - М. : Магистр, 1998. - 420 с.

2. Теория тестового распознавания / В. Б. Кудрявцев, А. Е. Андреев, Э. Э. Гасанов. - М. : ФИЗМАТЛИТ, 2007. - 355 с. - ISBN 978-5-9221-0872-0.

3. Распознавание скелетных образов / А. А. Котович, В. Н. Славин // Методы и средства работы с документами : сборник трудов Института системного анализа РАН. -M. : УРСС, 2000. - 347 с. - ISBN 5-8360-0262-2.

4. Компьютерная графика / Е. В. Шикин, А. В. Боресков, Г. Е. Шикина. - М. : Финансы и статистика, 1996. - 173 с. - ISBN 5-279-01485-0.

5. Введение в контурный анализ и его приложения к обработке изображений и сигналов / Я. А. Фурман, А. В. Кревецкий, А. К. Передреев, А. А. Роженцов, Р. Г. Хафизов, И. Л. Егошина, А. Н. Леухин. - М. : Физматлит, 2002. - 588 с. - ISBN 59221-02555-9.

6. Распознавание технологических карт, монтажных схем и схем комплектации железнодорожной документации / Е. Ю. Бурсиан // Известия Петербургского университета путей сообщения. - СПб. : ПГУПС, 2007. - Вып. 3. - 39 с.

7. Вычислительная геометрия. Введение / Ф. Препарата, М. Шеймос. - М. : Мир, 1989. - 149 с. - ISBN 5-03-001041-6.

Статья поступила в редакцию 23.04.2010;

представлена к публикации членом редколлегии В. А. Ходаковским.

УДК 625.1.002 (09)

А. А. Голубев

ОСОБЕННОСТИ ПРОКЛАДКИ ЖЕЛЕЗНОДОРОЖНОЙ ЛИНИИ МУРМАНСКОЙ МАГИСТРАЛИ

В статье раскрываются некоторые аспекты строительства Мурманской магистрали в конкретных специфических условиях северных территорий страны. Представлен опыт строительства водопропускных сооружений, прокладки железнодорожной линии

ISSN 1815-588 Х. Известия ПГУПС

2010/2

i Надоели баннеры? Вы всегда можете отключить рекламу.