Научная статья на тему 'Об автоматическом конвертировании таджикского текста к стандартной графике'

Об автоматическом конвертировании таджикского текста к стандартной графике Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
832
142
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / ШРИФТ / КОНВЕРТИРОВАНИЕ / СТАНДАРТ / АВТОМАТИЗАЦИЯ / TAJIK LANGUAGE / FONT / CONVERSION / STANDARD / AUTOMATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Худойбердиев Х. А.

Статья посвящена проблеме автоматического преобразования таджикского текста, созданного с использованием набора нестандартных шрифтов, в текст со стандартной графикой. Описан алгоритм автоматической конвертации текста, на основе которого реализован программный модуль, выполняющий автоматическое преобразование текста в офисных пакетах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On an automatic conversion of a tajik text to the standard graphics

In the article the problem of converting a Tajik text, prepared with utilizing a set of non-standard fonts, in the text with the standard graphics is discussed. An algorithm of automatic conversion of a text is resulted, on the basis of which the program module of transformation of texts in office applications has been developed.

Текст научной работы на тему «Об автоматическом конвертировании таджикского текста к стандартной графике»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2014, том 57, №3_

ИНФОРМАТИКА

81'322:: 811.222.8

Х.А.Худойбердиев

ОБ АВТОМАТИЧЕСКОМ КОНВЕРТИРОВАНИИ ТАДЖИКСКОГО ТЕКСТА

К СТАНДАРТНОЙ ГРАФИКЕ

Худжандский политехнический институт Таджикского технического университета им. академика М.С.Осими

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 06.12.2013 г.)

Статья посвящена проблеме автоматического преобразования таджикского текста, созданного с использованием набора нестандартных шрифтов, в текст со стандартной графикой. Описан алгоритм автоматической конвертации текста, на основе которого реализован программный модуль, выполняющий автоматическое преобразование текста в офисных пакетах.

Ключевые слова: таджикский язык - шрифт - конвертирование - стандарт - автоматизация.

1. Алфавит. С 1940 г. в таджикском литературном языке использовалась на письме русская графика с добавлением 6 специфических букв: «г», «й», «к», «у», «х», «ч». В 1998 г. буквы «ц», «щ», «ь», «ы» выведены из употребления. Современный таджикский алфавит состоит из 35 букв, расположенных в том же порядке, что и в русском языке, причём специфические таджикские буквы помещены рядом с похожими русскими: Аа, Бб, Вв, Гг, FF, Дд, Ее, Ёё, Жж, Зз, Ии, Йй, Йй, Кк, Кк, Лл, Мм, Нн, Оо, Пп, Рр, Сс, Тт, Уу, Уу, Фф, Хх, ^х, Чч, Чч, Шш, Ъъ, Ээ, Юю, Яя.

2. Нестандартные шрифты. В Таджикистане 1990-х годов вследствие бессистемного, хаотического использования и развития компьютерных технологий разработано свыше 100 различных компьютерных реализаций шрифтов с поддержкой таджикского алфавита для ввода таджикского текста. Названия некоторых из них представлены в табл. 1.

Таблица 1

Перечень нестандартных шрифтов

№ Наименование № Наименование № Наименование

1 Academy Tajik 15 FreeSet Tojik 29 Tajik Jiharev Ejod

2 Arial Tj 16 Gothik Tojik 30 Tajik Souvenir Ejod

3 Adver Tojik 17 Impact Tojik 31 Tajik FuturaPress

4 Alterna Tojik 18 Journal Tojik 32 Tajikan

5 Antiqua Tojik 19 Rodeo Tojik 33 TajikTimesET

6 Arial Tj Bold 20 Tajik Baltic 34 Times New Roman Tajik

7 Arial Tj Italic 21 Tajik Ribbon 35 Times New Roman Tj

8 Arial Tj Bold Italic 22 Tajik InformC 36 Times Tojik

9 Arial Black Tojik 23 Tajik Bengaly 37 Tadjik Normal

10 Book Man Tojik 24 Tajik Art Script 38 X Tajik Monaco Cyr

11 Courier New Tj 25 Taurus Tojik 39 X Tajik Times Cyr

12 Cooper Tojik 26 Taurus Tj 40 Vanta Tojik

13 Décor Tojik 27 Tajik Courier Ejod

14 Diser Tojik 28 Tajik Helvetica Ejod

Адрес для корреспонденции: Худойбердиев Хуршед Атохонович, Политехнический институт Таджикского технического Университета. 735700, Республика Таджикистан, г. Худжанд, ул. Ленина, 226. E-mail: tajlingvo@gmail.com

По отношению к 29 буквам, общим для русского и таджикского алфавитов, все решения оказались однотипными в том смысле, что оставили неизменными их позиции как на клавиатуре компьютера, так и в кодовой странице. Принципиальное различие между решениями наблюдалось лишь в размещении специфических таджикских букв.

Использование предприятиями, учреждениями и отдельными лицами разнообразных таджикских компьютерных шрифтов привело к возникновению обширных изолированных корпусов текстовой информации, абсолютно неприспособленных к автоматическим приёму, передаче и обработке информации по существу во всех иных местах, за исключением пунктов их создания.

Несмотря на то, что Постановлением Правительства Республики Таджикистан за № 330 от 2-го августа 2004 года был утвержден государственный стандарт таджикской компьютерной графики, до сих пор остаются пользователи, игнорирующие работу на стандарте. Между тем драйвер раскладки таджикских букв на компьютерной клавиатуре и инструкция по его установке для использования в повседневной работе (с надлежащим объяснением позиции на клавиатуре и в кодовой таблице шести специфических таджикских букв) остаются доступными через Интернет [1, 2].

Вот как выглядит государственный стандарт таджикской компьютерной графики в стандарте UNICODE.

Таблица 2

Кодовая таблица букв таджикского алфавита в стандарте UNICODE

№ Прописные буквы Код Unicodc Строчные буквы Код Unicodc

1 А \х0410 а \х0430

2 Б \х0411 б \х0411

3 В \х0412 в \х0432

4 Г \х0413 г \х0433

5 F \х0492 F \х0493

6 Д \х0414 д \х0434

7 Е \х0415 е \х0435

8 Е \х0401 ё \х0451

9 Ж \х0416 ж \х0436

10 З \х0417 з \х0437

11 И \х0418 и \х0438

12 и \х04е2 й \х04е3

13 и \х0419 й \х0439

14 К \х041а к \х043а

15 \х049а ^ \х049Ь

16 Л \х041Ь л \х043Ь

17 М \х041с м \х043с

18 Н \х04Ы н \х043а

19 О \х041е о \х043е

20 П k041f п \х043£

21 Р \х0420 р \х0440

22 С \х0421 с \х0441

23 Т \х0422 т \х0442

24 У \х0423 у \х0443

25 У \х04ее У \х04е£

26 Ф \х0424 ф \х0444

27 Х \х0425 х \х0445

28 X \х04Ь2 * \х04Ь3

29 Ч \х0427 ч \х0447

30 ч \х04Ь6 Ч \х04Ь7

31 Ш \х0428 ш \х0448

32 Ъ \х042а ъ \х044а

33 Э \х042а э \х044а

34 Ю \х042е ю \х044е

35 Я \х042£ я \х044£

3. Конвертирование текстов с нестандартными шрифтами

Существование на данный момент корпуса таджикских нестандартных текстов значительных размеров превратилось в серьёзную преграду на пути дальнейшего прогресса компьютерной технологии в Таджикистане. Порождаемые ею проблемы ощущаются в расширении сферы применения уже разработанных программных комплексов таких, как автоматическое конвертирование таджикских текстов в кириллической графике в тексты на фарси-графике, автоматическая проверка орфографии таджикских текстов, автоматический перевод с таджикского языка и др.

В создании компьютерной системы автоматической конвертации нестандартных текстов в тексты с поддержкой в государственном стандарте кроется реальный выход из создавшегося положения. В работе [3] предложено конкретное решение этой проблемы с помощью удалённого клиента, то есть отдельной программы обработки текстовых файлов, которая, однако, искажает исходные форматирование текста и структуру файла.

В связи с необходимостью устранения этих недостатков разработаны алгоритм и программный модуль с поддержками офисных приложений таких, как Microsoft Office, OpenOffice, LibreOffice и т.д. Модуль расширяет возможности офисных программ и предоставляет пользователю преобразовать весь текст в целом или же с любой позиции.

Модуль конвертора-преобразователя описан в виде концептуальной схемы, представленной на рисунке. Схема состоит из двух блоков — «Анализатор» и «Преобразователь». Первый блок содержит следующие подмодули: «Анализ текста», «Кодирование текста», «Переподготовка текста». Блок определяет наименования шрифтов текста, которые не соответствуют таджикскому государственному стандарту. Полученные результаты отправляются во второй блок. Этот блок содержит следующие подмодули - «Процедура поиска», «Процедура автозамены» и «Подготовка текста», который преобразовывает символы с нестандартными кодировками в стандартную раскладку.

Текст 1

Tajik Convertor

МОДУЛЬ АНАЛИЗАТОР

Анализ текста Кодирование текста Переподготовка текста

МОДУЛЬ ПРЕОБРАЗОВАТЕЛЬ

Процедура поиска Процедура автозамены Подготовка текста

Текст 2

Рис. Структурная модель конвертора.

Процесс преобразования привязывается к шести специфичным буквам таджикского языка и их соответствующим кодировкам в разных шрифтах. В табл. 3 приведено наименование шрифтов с

вариантами поддержки специфических букв таджикского языка, которые по проведённым исследованиям наиболее часто используются в делопроизводстве.

Таблица 3.

Нестандартные шрифты и поддержка специфических таджикских букв

№ Стандартный шрифт - Palatino Linotype F F й и К ч ч У У

1 Academy Tajik U u B b R r X X { г E E

2 Arial TAJIK U u B B R r X X { Г E E

3 Arial Tj Г г I ï К к Л Л ft а У У

4 TAJIKAN Щ щ Ц ц Ы ы Ж Ж Ь ь У У

5 Times New Roman TAJIK U u B b R r X X { Г E E

6 Times New Roman Tj Г г I ï К к Л Л ft ft У У

Эта таблица устанавливает соответствие между специфическими буквами стандартного шрифта Palatino Linotype и символами шести нестандартных шрифтов, используемыми на практике. Именно на основе этой таблицы выполняется конвертация выписанных символов шести нестандартных шрифтов в соответствующие им по вертикали специфические буквы стандарта Palatino Linotype.

4. Алгоритм конвертирования. Опишем процедуры конвертации некоторого слова W, представляющего собой определённую последовательность из n букв таджикского алфавита.

1. Ввести счётчик p номеров букв в слове W и положить p := 0.

2. Присвоить p := p + 1, что означает переход от буквы с номером p к следующей букве в слове W.

3. Проверить, если p > n, то следовать к п 4. Иначе сравнить p -ю букву в слове W на совпадение c символами шести нестандартных шрифтов, представленными в табл. 3.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если совпадения нет (это происходит в том случае, когда рассматриваемая буква - одна из 29 букв, общих для таджикской и русской график), то вернуться к п.2.

Если совпадение есть, то заменить этот символ соответствующей ему по вертикале в табл. 3 буквой шрифта Palatino Linotype.

Следовать к п. 2.

4. Конец. Конвертация букв в слове W завершилось.

В созданной по данному алгоритму компьютерной программе Tajik Converter для получения текста в стандартной раскладке используются подпрограммы поиска и быстрой автоматической замены. После завершения преобразования всего текста программа выдает итоговый текст в едином шрифте с поддержкой стандарта Palatino Linotype. Эффективность работы программы характеризуется средним интервалом времени в 8-10 секунд, потребным для обработки текста объёмом в одну страницу с размером шрифта 14пт.

Программный комплекс рекомендуется для использования в самых различных системах автоматической обработки текстов .

Поступило 13.12.2013 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре. - Душанбе: Ирфон, 2010, 104 с.

2. Усманов З.Д., Солиев О.М. Драйвер TajGraph раскладки таджикских букв на компьютерной клавиатуре. Интеллектуальный продукт. Зарегистрирован 078TJ 12.11.2008 Национальным патентно-информационным центром Министерства экономического развития и торговли РТ.

3. Гращенко Л.А. Клиент удаленной автоматизации согласования компьютерных шрифтов таджикского языка. - Доклады Академии Республики Таджикистан, 2011, Т.54, № 5, с. 367-370.

Х.А.Худойбердиев

ОИД БА ТАБДИЛДИХИИ АВТОМАТИКИИ МАТНИ ТОЧ,ИКЙ БА ХУРУФОТИ СТАНДАРТЫ

Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи академик М.С.Осими дар ш.Хуцанд

Дар макола масъалаи табдилдих,ии автоматикии матни точикй бо мачмуи хуруфхои гайристандартй ба матни дорои хуруфхои стандартй иншо шудааст. Алгоритми табдилдихди автоматикии матн пешних,од карда мешавад, ки дар асоси он модули барномавй бо дастгирии барномахои офисй амаликунанда сохта шудааст.

Калима^ои калиди: забони тоцикй - ууруфот - табдилдиуй - стандарт - автоматикунони.

Kh.A.Khudoyberdiev

ON AN AUTOMATIC CONVERSION OF A TAJIK TEXT TO THE STANDARD GRAPHICS

KhujandPolytechnic Institute of M.S.Osimi Tajik Technical University In the article the problem of converting a Tajik text, prepared with utilizing a set of non-standard fonts, in the text with the standard graphics is discussed. An algorithm of automatic conversion of a text is resulted, on the basis of which the program module of transformation of texts in office applications has been developed.

Key words: Tajik language - font - conversion - standard - automation.

i Надоели баннеры? Вы всегда можете отключить рекламу.