Научная статья на тему 'МЕТОДЫ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ СИМВОЛОВ'

МЕТОДЫ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ СИМВОЛОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
12
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕСОВОЙ КОЭФФИЦИЕНТ / РАНДОМИЗАЦИЯ / РАСПОЗНАВАНИЕ ОБРАЗОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Искандарова С.Н., Хурсандова Р.

В данном тезисе рассматриваются методы и процессы улучшения распознавания символов. Для отсканированных данных используются методы удаления шума, потери изображения, фильтрации и разделения символов, а так же их правильная интерпритация.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS FOR IMPROVING CHARACTER RECOGNITION

In this thesis, methods and processes for improving character recognition are discussed. For scanned data, the methods of noise removal, image loss, filtering and character separation are used, as well as their correct interpretation.

Текст научной работы на тему «МЕТОДЫ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ СИМВОЛОВ»

4. R. Schapire, "The Strength of Weak Learnability," Machine Learning. 5 197227 (1990).

5. H.Drucker, R.Schapire, P.Simard. "Boosting Performance in Neural Networks." International Journal of Pattern Recognition and Artificial Intelligence. 7 705-720 (1993).

6. Fukushima, K. (1988). Neocognition: a hierarchical neural network capable of visual pattern recognition. Neural Networks 1 (2), Стр. 119-130.

УДК 004.386

Искандарова С.Н. ассистент

кафедра «Программный инжиниринг»

Хурсандова Р. студент Самаркандский филиал Ташкентский университет Информационных Технологий им.Мухаммад Аль Хорезмий Республика Узбекистан, г. Самарканд

МЕТОДЫ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ СИМВОЛОВ

Аннотация: В данном тезисе рассматриваются методы и процессы улучшения распознавания символов. Для отсканированных данных используются методы удаления шума, потери изображения, фильтрации и разделения символов, а так же их правильная интерпритация.

Ключевые слова: весовой коэффициент, рандомизация, распознавание образов.

Tasvirni tanish aniqligini oshirish usullari ТА^Samarqandfiliali Iskandarova S.N.,talaba Xursandova R.

METHODS FOR IMPROVING CHARACTER RECOGNITION

Annotatsiya: Ushbu tezisda tasvirni tanishda aniq metodlarni qo'llashdan oldingi jarayonlar va usullar keltirilgan. Skaner qilingan ma'lumotni tasvir xiraligini yo'qotish, ya'ni filtrlash va harflarni ajratib olish metodlari izohlangan.

Abstract: In this thesis, methods and processes for improving character recognition are discussed. For scanned data, the methods of noise removal, image loss, filtering and character separation are used, as well as their correct interpretation.

Key words: weight coefficient, randomization, pattern recognition.

Arab bosma matnini tanish tizimi bir necha bosqichdan iborat.Birinchi navbatda matn tahlil qilinadi va aloxida blokka olinadi,undan keyin skaner qilinadi va xuddi Bit-map tasviri kabi xotiraga saqlanadi.Arab tilida yozilgan so'zlarda bir xil ko'rinishlarda unli harf bor,bir xil ko'rinishlarda esa unli harf yo'q.Matnda unli harflarni qanday tanishi va qanday tuzilishga ega ekanligi haqida davom etamiz.

FiШrlash

FiltЫash paytida bizga xalaqit berayotgan shovqinlar olib tashlanadi,Tasvir ikkilik tasvir shaklida bo'ladi bu jarayon skanerlash vaqtida amalga oshiriladi.Ko'plab ananaviy tasvirlarni filtirlash ucjun bir qacha filtrlash turlari bor.Masalan:Gaussa filtiri, o'rtacha filtirlash va boshqalar.Lekin qanday filtirlash usulidan qatiy nazar birinchi navbatda uning samadorligi maqsad qilib olinadi.Yuqorida ko'rganimizdek 1 - 2 rasmlar filtirlash amalga oshirilgandan so'ngi natijalardir.Filtirlash jarayonida matnni bir zarracha deb olib bitmap shaklida tekshiradi va uning sakkiz qo'shnilarini o'rtacha qaytaradi.(3 - rasmga qarang).

10 1 12 20 50

100 1 50 30 1 1

25 20 40 50 12

25 25 30 40 50

20 30 60 51 60

20 25 30 30 40 40 50

3 -rasm. ОТасЪа filtirlash.

4 - rasm. Gorizontal sigmentatsiya.

Matn sigmentatsiyasi

Ishlatadigan usulimiz asosan satr va ustunlar ustuda ish olib boradi.Bu usul arab yozuvuning o'ziga xos jihaüarini qamrab oladi.Sigmentatsiya uch bosqichda amalga oshiriladi: a) qatorlarga bo'lish b) so'zlarni alohida bo'lish c) har bir so'zni alohida harflarga ajratish.

Gorizontal sigmentatsiya.

Bu bosqich matni gorizontal sigmentatsiyalashni ko'zda tutadi va uni tarmoqlarga oladi.Bunda asosiy etiborni individual chiziqlar orasidagi masofani juda yaqin aniqlash talab etiladi. Ushbu yangi matn maydoni malim bir kattalikdagi,ikki chiziq orasidagi masofa kam bo'lsa,ushbu ikki qatorning biri sifatida idrok etildi.Quydagi gorizontal sigmentatsiya bo'ladi.

- Sarr boshi belgilanadi.Bu kamida bir qora pikselni o'z ichiga olgan,bir tomonlama matritsasi, birinchi tarmog'i mos keladi.

- Qator oxirida ikkilik matritsa bo'yicha qora piksel yo'q.Jarayon o'ngdan chapga amalga oshiriladi.

Vertikal sigmentatsiya.

Ushbu operatsiyani bajarish gorizontal o'qi bo'ylab chiziq orqali amalga oshiriladi.Olingan individual so'z tarmoqlarga bo'lish uchun ishlatiladi,bu yerda nol ustunlik qiladi.Quyida vertikal sigmentatsiyani yuqoridan pastga bo'lgan shaklini ko'rishimiz mumkin.

SS! BS El IS В Si БД, KS Si f.

5 - rasm.Vertikal sigmentatsiya.

- So'z boshida bir qora piksel o'z ichiga ikkilik matritsani birinchi ustun bo'ylab oladi.

- Oxiridagi so'zni o'z ichiga olgan qora piksel yo'q bo'lgani uchun birinchi ustun bo'ylab oladi.

Ramzlar uchun Split so'zlar.

Aniqlashimiz uchun kerak bo'ladigan so'zlarni tanlash:

1) Qatorlardagi aloqa.U xuddi qatorlardagi kabi qora pikselni tashkil qiladi kontsentratsiyalar bilan.

2) Har bir qator uchun eng yuqori kontsentratsiya sifatida belgilab oladi.Bunda qora piksel o'z ichiga yuqoridan birinchi tarmoqni oladi.

3) Har bir so'z ustun uchun pastki chiziqdan hisoblanadi.Bunda qora piksel o'z ichiga pastdan birinchi tarmoqni oladi.

4) Vertikal gistogram boshlanishi uchun unga teng yoki unda kam bo'lishi kerak.

Foydalanilgan adabiyotlar ro'yxati:

1. El-Sheikh T. S., Guindi R. M. Computer Recognition of Arabic Cursive Script, Pattern Recognition // 21(4). 1988. P. 293-302.

2. Hussain F., Cowell J. Character Recognition of Arabic and Latin Scripts // Proc. IEEE International Conference on Information Visualisation. 2000. P. 51-56.

3. Amin A. Un systeme pour la reconnaissance et la comprehension de la arabe ecrit et imprime. These de etat. — Nancy. December 1985.

4. Граничин О. Н., Поляк Б. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. — М.: Наука. 2003. 291 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.