Научная статья на тему 'Клиент удаленной автоматизации согласования компьютерных шрифтов таджикского языка'

Клиент удаленной автоматизации согласования компьютерных шрифтов таджикского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
197
98
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
таджикский язык / шрифты / СТАНДАРТИЗАЦИЯ / удаленная автоматизация / Тajik language / COMPUTER fonts / standartization / remote automation

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гращенко Л. А.

В статье приводится содержание и описывается решение задачи приведения различных таджикских шрифтов к стандартным, а также дается классификация существующих групп таджикских шрифтов. Описывается разработанный для решения указанной задачи клиент удаленной автоматизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In article the maintenance is resulted and the decision of a problem of reduction of various Tajik fonts to standard is described, and also classification of existing groups of the Tajik fonts is given. The remote automation client for the specified problem decision is described.

Текст научной работы на тему «Клиент удаленной автоматизации согласования компьютерных шрифтов таджикского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2011, том 54, №5___________________________________

ИНФОРМАТИКА

УДК 004.414.32::655.24:811.222.8

Л.А.Гращенко

КЛИЕНТ УДАЛЕННОЙ АВТОМАТИЗАЦИИ СОГЛАСОВАНИЯ КОМПЬЮТЕРНЫХ ШРИФТОВ ТАДЖИКСКОГО ЯЗЫКА

Институт математики АН Республики Таджикистан

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 04.04.2011 г.)

В статье приводится содержание и описывается решение задачи приведения различных таджикских шрифтов к стандартным, а также дается классификация существующих групп таджикских шрифтов. Описывается разработанный для решения указанной задачи клиент удаленной автоматизации.

Ключевые слова: таджикский язык - шрифты - стандартизация - удаленная автоматизация.

Стихийный характер процессов информатизации, протекающих в Республике Таджикистан с начала 90-х годов XX века, обусловил наличие в настоящее время значительного количества широкоупотребительных компьютерных шрифтов, реализующих возможность отображения в системах электронного документооборота различных текстов на таджикском языке, однако не соответствующих действующим стандартам [1, 2] в области кодировки символов таджикского алфавита. Сложившаяся ситуация затрудняет не только процессы электронного документооборота, требующие в таком случае наличия на локальных компьютерах пользователей полного набора специфических шрифтов, но и реализацию модулей графематического анализа в перспективных автоматизированных системах обработки текстов, особенно в случае одновременного использования в одном документе шрифтов с различными вариантами кодирования символов.

Процесс преобразования электронного документа, в котором используются нестандартные варианты таджикских шрифтов в документ, набранный с использованием стандартных шрифтов, назовем процессом согласования шрифтов. Задачи согласования шрифтов актуальны те только в Республике Таджикистан, но и в других странах Центрально-Азиатского региона. Автору известно о наличии программных продуктов разрешения аналогичной проблематики в Казахстане [3] и Узбекистане [4].

Различия между нестандартными и стандартными шрифтами ТЯ сводятся к следующему:

- отличается кодировка специфических символов таджикского алфавита (г, х, ч, У, й);

- нестандартный шрифт может поддерживать более чем один вариант кодировки указанных символов.

Постановка задачи согласования шрифтов определяет ее содержание:

1. Определение перечня всех шрифтов, используемых в исходном документе.

Адрес для корреспонденции: Гращенко Леонид Александрович. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: graschenko@mail.ru

2. Последовательная замена в тексте специфичных таджикских символов, имеющих нестандартную кодировку на символы из стандартного набора с одновременной сменой шрифта текстового образования (слова, предложения, параграфа) на основе выбранных пользователем предпочтений.

3. Изменение размера применяемых шрифтов для сохранения геометрических пропорций визуального оформления документа.

С целью информационного обеспечения процесса решения приведенных задач, автором были проанализированы 72 локальных таджикских шрифта, разработанных различными лицами и организациями за последние 18 лет. В результате установлено, что указанное множество шрифтов может быть разбито на 11 групп, в зависимости от конкретной реализации таблицы кодировки символов специфичных таджикских букв, составлена следующая таблица.

Таблица

Некоторые варианты кодировок специфических таджикских букв для различных шрифтов

№ п/п Кодировка специфических таджикских букв, #UNICODE

Наименование шрифта F s' F К * Ч Ч И s' У У

1 Palatino Linotype Arial Unicode MS 0493 0492 049B 049A 04B3 04B2 04B7 04B6 04E3 04E2 04EF 04EE

2 Times New Roman Tj Arial TJ 0453 0403 045C 040C 045A 040A 0459 0409 0457 0407 045E 040E

3 Times New Tojik 045B 040B 0455 0405 0456 0406 0457 0407 045C 040C 045E 040E

11 Taurus Tojik 0161 045B 0160 040B 00A5 00BE 0455 0490 00A3 00BD 0405 0408 00B3 0456 00B2 0406 00BF 0457 00AF 0407 0153 045C 0152 040C 00A2 045E 00A1 040E

В первой строке таблицы приведена стандартная кодировка букв расширенного кирилловского алфавита, во 2-11 строках - встречающиеся альтернативные кодировки. Второй и третий вариант кодировок выполнены в стандартном для кириллицы диапазоне кодов и0400 - U04FF, а 4-11 варианты в диапазоне кодов и0000 - U00FF. Таблица иллюстрирует, что, например, 11 кодировка позволяет использовать более чем один вариант представления специфических символов.

Формализуя содержание процесса согласования шрифтов, приведем алгоритм обработки исходного текста длины т:

1. На первом этапе необходимо для каждого /-го символа текста входного документа (1 < / < т) определить наименование шрифта и, если такой шрифт не встретился ранее, занести его в таблицу А.

2. Для каждого /-го наименования шрифта из таблицы А найти соответствующий ему номер п группы шрифта (1 < п < 11) по таблице 1.

3. Каждому j-му шрифту из таблицы A сопоставить наименование и размер шрифта из 1 группы, которым исходный шрифт будет заменен в процессе преобразования документа. Размер результирующего шрифта задается исходя из известных данных о соотношении размеров символов различных шрифтов.

4. Для каждой пары (i, n | n > 1) определить, содержится ли кодировка символа i в строке n таблицы

и, если содержится - произвести замену кода i-го символа текста на код из первой строки того же столбца таблицы, в котором найден код исходного символа.

5. Заменить шрифт i-го символа текста на другой, в соответствии с таблицей замены шрифтов, выбранной пользователем.

Приведенный алгоритм был успешно реализован в виде клиента удаленной автоматизации, взаимодействующего по технологии связывания и внедрения объектов (OLE) с сервером (remote automation server) - приложением Microsoft Office Word.

Разработанное приложение - «Мастер согласования таджикских шрифтов» (далее Мастер), функционирует в операционной среде Windows XP/Vista и обладает следующим функционалом:

- анализирует все встречающиеся шрифты в выбранном пользователем документе и составляет их список с указанием типа кодировки (1-11) каждого из них;

- производит перекодировку всех символов, набранных нестандартными шрифтами (типы 2-11), к стандартному виду (тип 1);

- автоматически заменяет шрифты типов 2-11 одним из шрифтов типа 1, опционально позволяя производить преобразование шрифтов 1 типа. За счет того, что шрифты 1 типа входят в состав стандартной поставки шрифтов операционной системы MS Windows, преобразованный документ будет корректно отображаться на любом компьютере;

- опционально преобразует размеры примененного шрифта для сохранения идентичности геометрических размеров элементов между результирующим и исходным документами;

- осуществляет автоматическую замену символов, глифы которых схожи с глифами букв таджикского алфавита, но не являющихся таковыми, к стандартному виду (например, У ^ у).

Вид интерфейса главного окна программы приведен на рисунке, а подробная информация о программе доступна на сайте http://www.tajpers.narod.ru.

Рис. Вид главного окна программы.

Применение разработанного программного продукта представляется обоснованным для обработки накопленных за последние годы электронных коллекций документов (архивов, корпусов текстов), при организации электронного документооборота на таджикском языке между различными организациями и частными лицами.

Предложенный для реализации процесса согласования таджикских шрифтов алгоритм носит общий и первичный характер, в связи с чем возникает следующая задача - оптимизации вычислительных затрат при согласовании шрифтов в документах значительного объема.

Работа над анализом и учетом новых групп таджикских шрифтов продолжается.

Поступило 04.04.2011 г.

ЛИТЕРАТУРА

1. СТРТ 1065-2004 «Средства вычислительной техники. Клавиатуры. Расположение клавиш и символов таджикского алфавита». - Душанбе: Таджикстандарт, 2004.

2. The Unicode Standard, Version 6.0, Cyrillic, Range 0400-04FF [Электронный ресурс]: http://www.unicode.org/charts/PDF/U0400.pdf.

3. Кучеренко А.С. Универсальный перекодировщик текстов с казахскими шрифтами KazFontsConverter [Электронный ресурс]: http://www.kfc.kz.

4. Мастер исправления кодировок [Электронный ресурс]:

http://www.olegvlad.sk.uz/decoder.htm#decod04.

Л.А.Грашенко

МИЗОЧИ АВТОМАТИКУНОНИИ ДУРДАСТ МУТОБИЦКУНИИ ШРИФТ^ОИ КОМПЮТЕРИ ЗАБОНИ ТОЧ,ИКЙ

Институти математикаи Академияи илм\ои Цумхурии Тоцикистон

Дар мак;олаи зерин матн ва рохи халли масъалаи шрифтхои стандартии точикй оварда шудааст, хамзамон шрифтхои точикй ба дарачахо так;сим шудааст. Дар мак;ола мизочи автома-тикунонии дурдаст коркард шудааст.

Калима^ои калиди: забони тоцикй - шрифтхои компютери - стандартизатсия - автоматикуно-нии дурдаст.

L.A.Graschenko

REMOTE AUTOMATION CLIENT FOR REDUCTION OF COMPUTER FONTS OF THE TAJIK LANGUAGE

Institute of Mathematics, Academy of Sciences of Republic Tajikistan In article the maintenance is resulted and the decision of a problem of reduction of various Tajik fonts to standard is described, and also classification of existing groups of the Tajik fonts is given. The remote automation client for the specified problem decision is described.

Key words: Tajik language - computer fonts - standardization - remote automation.

i Надоели баннеры? Вы всегда можете отключить рекламу.