Научная статья на тему 'Частотные характеристики символов чертежных текстов'

Частотные характеристики символов чертежных текстов Текст научной статьи по специальности «Химические науки»

CC BY
167
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БУКВЫ / ВЫБОРКИ / ЧАСТОТА / ДВУМЕРНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА / СРЕДНЕЕ / ДИСПЕРСИЯ

Аннотация научной статьи по химическим наукам, автор научной работы — Ворончихина Е. Н., Жигалко Е. Ф., Калинина П. С., Привалов Н. А., Пашнина Н. В.

В работе экспериментально определены выборочные частоты появления и смежности символов монтажных карт, а также начальные моменты рукописных букв (как случайных величин) в этих текстах. Результаты работы могут быть учтены при построении алгоритмов автоматической интерпретации текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Частотные характеристики символов чертежных текстов»

Проблематика транспортных систем

Библиографический список

1. Осадки фундаментов при реконструкции зданий / С. И. Алексеев. - СПб. : Санкт-Петербургское отделение Общероссийского общественного фонда «Центр качества строительства», 2009. - 83 с.

http://www.buiLdcaLc.ru/Books/2009062801/DeFauLt.aspx.

2. Влияние выштампованных микросвай на несущую способность фундамента мелкого заложения / С. И. Алексеев, Р. В. Мирошниченко

http://www.buiLdcaLc.ru/AticLes/Open.aspx?id=2009062801.

3. Механика грунтов, основания и фундаменты / Б. И. Далматов. - М. : Стройиздат, 1981. - 316 с.

Статья поступила в редакцию 14.12.2009; представлена к публикации членом редколлегии Т. А. Белаш.

УДК 519.67, 51.77

Е. Н. Ворончихина, Е. Ф. Жигалко, П. С. Калинина, Н. А. Привалов, Н. В. Пашнина, М. Ю. Пахнушева

ЧАСТОТНЫЕ ХАРАКТЕРИСТИКИ СИМВОЛОВ ЧЕРТЕЖНЫХ ТЕКСТОВ

В работе экспериментально определены выборочные частоты появления и смежности символов монтажных карт, а также начальные моменты рукописных букв (как случайных величин) в этих текстах. Результаты работы могут быть учтены при построении алгоритмов автоматической интерпретации текстов.

буквы, выборки, частота, двумерная случайная величина, среднее, дисперсия.

Введение

В настоящее время распознавание печатного текста не составляет большого труда и осуществляется стандартными средствами. Причем это относится лишь к текстам, выполненным с использованием стандартных или нормативных шрифтов. Распознавание же рукописного текста всё еще представляет значительные трудности.

Целью данной работы было подвергнуть анализу базу данных, содержащую в себе характерные образцы букв алфавита, встречающиеся в реальных документах, на основе имеющихся данных построить выборочную плотность распределения случайных величин, описывающих буквы, а также собрать информацию о контексте этих букв.

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

6

Выбор направления данного исследования мотивирован известной необходимостью перевода архива монтажных схем (карт) СЦБ в электронную форму. Работа выполнялась по гранту ПГУПС №107-09 2009 года по теме «Определение моментных характеристик символов монтажных схем СЦБ».

Схемы представляют собой листы большого формата (А3) с таблицами, заполненными рукописными символами, в основном буквами русского алфавита и арабскими цифрами. Создание электронной формы карты требует решения задач распознавания изображений на различных уровнях - от восприятия структуры карты до идентификации конкретной буквы.

Трудность задач распознавания и идентификации элементов чертежной документации требует расширения учитываемой информации. Одним из возможных выходов может быть учёт высших моментов конкретной буквы [1], [2], а также моментных и частотных характеристик контекста. Нами проведены исследования в этом направлении по схеме, состоящей из шести этапов.

1 Сканирование

Для обработки данных очевидна необходимость их оцифровки. Было проведено сканирование каждой таблицы с разрешением 3508*4962 пикселей, после чего были отобраны 22 наиболее выразительные цифровые копии листов в качестве репрезентативной выборки для дальнейшей работы с ними.

2 Определение частотных характеристик появления символа

Цель работ этапа состояла в определении вероятности появления конкретного символа и вероятности нахождения его в определенных сочетаниях с другими символами в текстах рассматриваемого типа. Было обработано около 15500 символов во всей совокупности таблиц.

Результат был получен в виде неоднородных матриц, в которых первые столбец и строка отведены для перечисления всех символов (буквы русского алфавита и арабские цифры), а также выделен отдельный столбец для представления общего количества появлений каждого из символов в конкретном листе. На пересечении строки и столбца в текущую ячейку было занесено количество появлений символа из данного столбца следом за символом из данной строки 22 матрицы (рис. 1).

Матрицы, представляющие частотные характеристики появления конкретных символов, являются результатом с самостоятельным значением, но они были применены также для регулирования потоков данных на следующих этапах работы, что важно вследствие значительной

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

их мощности. Конкретно в рассмотрении находилось около 15500 растровых полей символов. Поэтому данный этап является не только интересным и достойным самим по себе результатом, но и в какой-то мере необходимым для распределения последующей работы между исполнителями.

Рис. 1. Таблица частотных характеристик появления символов

3 Определение индивидуального растрового поля

Для обработки каждого символа в отдельности было необходимо произвести для них определение индивидуального растрового поля буквы (нарезку).

Из всех файлов поочередно для каждого символа вырезались его изображения с помощью графического редактора на поле размером 100^100 пикселей. Количество нарезок в зависимости от вероятности появления символа варьировалось, но ограничивалось числом 80.

Для улучшения качества эксперимента требовалось аккуратно удалить лишние детали, не принадлежащие выбранному символу (рис. 2).

После этого полученные растры символов сохранялись в файлах в формате .bmp так, чтобы структура комплекта сохранения позволяла проследить, из какой именно таблицы был взят символ.

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

8

Каждый исполнитель получил задание на обработку семи символов, на предмет которых он просматривал все таблицы и составлял для этих символов репрезентативные выборки. Таким образом, результатом этапа стало получение около 2000 индивидуальных растровых полей для исследуемых символов.

4 Квантование

После завершения этапа определения растрового поля символа была необходима замена непрерывного спектра серого в поле буквы дискретным.

С помощью специально разработанной программы на языке С++ выполнялось оригинальное двухуровневое квантование, результатом которого являлась матрица 100*100, содержащая 0 или 1 в зависимости от яркости (уровня серого) в пикселе, соответствующем элементу матрицы (рис. 3). Таким образом получалось в среднем по 80 матричных представлений каждой буквы алфавита и арабских цифр от 1 до 9.

5 Рандомизация и суммирование

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

Выражаемое матрицей квантованное изображение конкретной буквы интерпретируется как случайный процесс появления 1 на месте какого-либо элемента матрицы (что означает уровень черного в соответствующем пикселе изображения).

л^сюоооооооооооооооооооооооооооооооооооооооооооооо

.-^DQGGGGGGQQlQQQGGGGGGGOOOQQGGGGGGQQQQQQGlllGGGO

00000000000001111000000000000000000000000011110000

00000000000001111000000000000000000000000011111000

00000000000001111000000000000111000000000111111000

00000000000001111000000000000111100000000111111000

00000000000001111000000000001111100000000111111000

00000000000001111000000000011111000000000111110000

00000000000001111000000000111110000000001111100000

00000000000011111000000000111110000000011111100000

00000000000111110000000000111100000000011111100000

00000000000111110000000000111100000000011111000000

00000000000111100000000001111100000000111110000000

00000000001111100000000001111000000000111110000000

00000000001111000000000011110000000001111100000000

00000000011111000000000011110000000001111100000000

00000000011110000000000011100000000011111000000000

00000000011110000000000111100000000011111000000000

00000000011100000000000111000000000011110000000000

00000000111000000000000111000000000111110000000000

00000001111000000000000111000000000111100000000000

00000011111000000000001110000000000111000000000000

00000011111000000000001110000000001110000000000000

00000111110000000000011110000000001110000000000000

00000111100000000000011110000000001110000000000000

00000111100000000000011110000000011100000000000000

00000111100000000000111111000000111100000000000000

00000111100000111101111111111111111100000000000000

00000111111111111111111111111111111100000000000000

00000111111111111111111111111111111000000000000000

00000111111111111111111000000111111000000000000000

00000000011111000110000000000011110000000000000000

00000000000000000000000000000000100000000000000000

00000000000000000000000000000000000000000000000000

Рис 3. Часть матрицы 100*100 из 0 и 1

Суммирование таких матриц в классе относящихся к конкретной букве (рис. 4) и последующая нормировка числом, равным количеству суммированных матриц класса, приводит к двумерной функции -плотности вероятности появления 1 на поле этой матрицы [3]. Картина плотности вероятности выражает моментные характеристики изображения символа как многомерной случайной величины.

При поиске оптимального вычислительного процесса были разработаны и использованы две программы - на C++ и в пакете. Каждая оказалась оптимальной в различных условиях применения.

6 Г рафические результаты

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

10

Учитывая преимущество визуального восприятия над анализом формул и текста, мы представляем полученные в нашей работе данные, выражающие моментные характеристики изображения каждого символа с помощью многомерных графиков (диаграмм) математических пакетов (рис. 5, 6).

Совершен переход в вероятностное метрическое пространство:

диаграммы показывают статистическую оценку случайного поля буквы.

3 3 3 5 5 8 6 б 7 9 7 9 9 9 7 10 8 7 7 9 7 7 6 5 4 3 4 5 б 5 5 4

3 3 7 8 11 13 13 16 21 22 21 21 23 21 18 19 19 18 17 18 17 15 14 13 12 11 11 10 8 7 7 5

5 8 11 13 16 21 22 28 30 31 32 34 32 33 30 30 30 27 27 27 27 28 24 25 19 17 16 19 16 12 9 5

6 8 11 14 20 25 31 33 34 37 39 38 38 39 39 37 38 37 35 36 37 36 33 34 32 28 26 25 23 16 12 9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8 9 11 15 24 28 35 41 44 47 49 50 49 50 47 46 46 47 46 48 48 45 42 40 36 35 35 28 25 20 12 9

4 7 9 14 23 29 36 37 44 48 50 50 45 46 45 46 47 48 45 47 45 47 49 46 44 41 41 35 29 22 17 12

4 5 8 11 17 25 29 34 37 41 43 42 39 36 38 38 39 43 45 45 48 50 52 51 51 46 46 40 30 24 19 13

3 5 7 10 14 21 27 28 33 36 37 35 32 31 29 30 30 31 39 46 48 53 53 55 50 49 47 41 33 25 17 12

2 6 7 7 14 16 18 21 23 27 29 26 26 26 27 25 28 27 38 43 49 51 50 48 49 48 45 32 31 23 17 9

2 6 8 8 12 16 17 18 20 22 22 19 18 18 17 17 18 23 32 35 42 44 45 45 49 47 38 34 29 16 10 6

3 7 8 8 8 13 14 15 15 14 15 13 11 11 10 11 13 24 32 36 37 41 43 45 43 42 33 27 18 15 7 7

5 7 8 8 8 11 10 9 9 9 8 6 4 4 6 8 15 20 33 31 34 34 45 38 41 31 28 18 14 8 6 3

5 7 7 7 8 5 6 5 5 3 3 2 2 2 4 8 13 22 28 31 33 36 42 34 31 22 20 14 7 5 5 1

2 5 5 6 5 3 2 2 3 1 1 1 1 3 4 10 16 22 25 33 37 40 41 30 26 20 15 8 5 4 3 0

3 3 3 5 3 3 2 2 1 0 0 0 2 5 10 14 21 21 30 37 37 40 34 25 20 15 9 9 б 5 1 0

1 3 2 2 1 4 3 3 2 1 2 3 5 11 13 20 22 28 36 36 40 37 26 22 16 10 11 6 4 2 1 0

1 2 3 2 2 1 3 3 3 2 4 6 10 14 18 24 30 35 36 40 36 28 23 16 11 9 8 4 1 0 1 1

1 1 1 1 2 3 3 2 2 3 5 10 13 19 25 27 34 36 41 35 30 25 21 14 10 9 5 2 1 0 1 1

1 2 2 2 2 4 3 3 3 5 8 12 16 27 28 31 33 40 41 33 25 22 13 10 10 3 1 1 0 0 0 0

1 1 1 3 3 5 5 7 8 10 13 16 24 28 34 37 38 40 34 33 22 16 9 8 7 4 0 0 0 0 0 0

1 1 1 4 5 8 8 8 11 13 19 24 30 31 33 38 41 38 35 31 20 13 10 6 5 3 1 1 1 1 1 1

1 1 1 3 3 7 8 11 12 16 23 29 32 33 36 39 41 36 32 26 16 12 9 7 4 2 1 1 0 0 1 1

1 2 2 4 4 4 8 11 12 19 23 28 31 35 38 42 37 31 26 18 12 7 5 4 2 1 0 0 0 0 0 0

□ 1 1 2 4 8 9 10 16 20 29 32 33 36 42 39 29 28 21 11 5 4 3 1 0 0 0 0 1 1 0 0

1 1 3 3 7 9 10 17 21 31 29 33 36 36 37 29 27 22 13 7 5 3 2 2 1 1 1 1 1 1 0 0

1 1 2 4 7 8 13 19 32 37 35 37 38 38 32 29 26 15 11 5 4 4 4 3 3 2 2 2 0 0 0 0

1 X 3 5 9 10 16 23 35 36 39 40 39 32 32 26 19 10 5 5 5 4 3 3 2 2 2 0 0 0 0 0

0 1 3 6 9 13 20 29 34 38 38 40 33 29 26 24 16 5 3 4 4 4 2 1 1 1 1 0 0 0 0 0

0 2 4 7 10 19 25 34 36 40 40 39 31 29 21 15 7 4 2 2 2 1 1 1 0 0 0 0 0 0 0 0

1 2 4 8 10 20 31 36 39 37 37 34 29 25 17 11 5 2 2 2 2 1 1 1 1 1 1 0 0 0 0 0

1 3 4 7 14 26 36 38 36 40 37 30 25 20 12 4 2 2 1 0 0 0 0 0 1 1 1 1 1 0 0 0

2 3 5 10 16 30 38 36 38 37 33 27 21 17 10 3 2 2 0 0 0 0 0 0 0 0 1 1 1 0 0 0

2 3 7 11 21 34 38 35 38 36 30 25 18 13 5 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0

3 3 8 12 25 36 40 35 39 36 29 20 17 8 3 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0

3 4 10 17 29 33 33 34 31 30 24 17 10 6 3 3 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

2 4 11 17 26 30 28 28 26 22 20 13 7 4 3 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

1 3 9 13 19 21 21 23 21 20 17 10 6 3 3 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

1 4 7 8 15 16 17 20 18 15 11 8 3 2 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

1 5 7 9 13 14 13 13 12 9 6 5 2 2 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

2 5 7 9 9 7 8 8 8 9 4 4 2 2 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Рис. 4. Суммированная матрица для символа “7”

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

Рис. 5. Визуализация суммированной матрицы символа “Ж”

Рис. 6. Визуализация суммированной матрицы символа “Ш”

ISSN 1815-588 Х. Известия ПГУПС

2010/1

Проблематика транспортных систем

12

Заключение

Можно считать, что цели, поставленные в задании, достигнуты, а именно: определены частотные и моментные характеристики символов. Результаты работы позволят облегчить формализацию распознавания рукописных символов в документации.

Дальнейшая работа может быть проведена по многим направлениям. Одно из них - вывод аналитических отношений для моментных характеристик букв. Такая необходимая и нужная работа может быть проведена только на основании данных, подобных предлагаемым в настоящей статье.

Библиографический список

1. Основы теории алгебраических инвариантов / Г. Б. Гуревич. - М; Л. : ОГИЗ, 1948. - 461 с.

2. Computer Recognition of Unconstrained Handwritten Numerals / Hatem M.R. Abou-zeid, Akrem S. El-ghazal, and Ammer A. Al-khatib // Circuits and Systems. Proceedings of the 46th IEEE International Midwest Symposium : 2003. - MWSCAS '03.

3. Геометрические вероятности / M. Кендалл, П. Моран. - М. : Наука, 1972. -

192 с.

Статья поступила в редакцию 10.02.2010;

представлена к публикации членом редколлегии В. В. Сапожниковым.

УДК 656.222.3:656.225.073 А. А. Гуламов

ПРОГНОЗИРОВАНИЕ ОБЪЁМОВ ПЕРЕВОЗОК ГРУЗОВ НА УЗБЕКСКОЙ ЖЕЛЕЗНОЙ ДОРОГЕ

Рассматривается прогнозирование объёмов перевозок грузов в зависимости от изменения такого важного макроэкономического показателя, как валовой внутренний продукт. Взаимосвязь между валовым внутренним продуктом и объёмом перевезенных грузов осуществляется применением метода экстраполяции и регрессии. Расчеты были проведены на примере Государственно-акционерной железнодорожной компании «Узбекистон темир йуллари» (ГАЖК УТЙ).

валовой внутренний продукт, корреляция, регрессия, экстраполяция, прогноз.

Введение

ISSN 1815-588 Х. Известия ПГУПС

2010/1

i Надоели баннеры? Вы всегда можете отключить рекламу.