Научная статья на тему 'Арабский язык и проблемы локализации'

Арабский язык и проблемы локализации Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
319
105
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ARABIC LANGUAGE / LOCALIZATION / FORMALIZATION / MACHINE TRANSLATION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Берникова Ольга Александровна

Целью настоящего исследования является анализ специфики локализации программных продуктов на арабский язык. Опираясь на опыт разработки лингвистических программных приложений, автор делает выводы относительно особенностей арабского языка, а также ряда экстралингвистических характеристик, которые необходимо учитывать при создании локализованных версий программных продуктов. В ходе работы рассматривается понятие термина локализация, а также ее возможные классификации. Междисциплинарный характер работы определяет использование методов, свойственных компьютерной лингвистике в сочетании с социолингвистикой. Результаты исследования имеют практическую значимость и могут способствовать совершенствованию технологий обработки арабоязычного материала

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The present research aims at linguistic analysis of peculiarities of the Arabic software localization. Relying upon her own experience in development of software applications, the author makes conclusions about characteristics of the Arabic language, as well as some extra-features that must be considered when developing localized versions of software. The work deals with the concept of the term localization, as well as its classification. Interdisciplinary nature of the research determines its methods, which are typical both for computer linguistics and for sociolinguistics. The results of the research have practical significance and could improve technologies used for Arabic language processing.

Текст научной работы на тему «Арабский язык и проблемы локализации»

АРАБСКИЙ ЯЗЫК И ПРОБЛЕМЫ ЛОКАЛИЗАЦИИ

Берникова Ольга Александровна

доцент, кандидат филологических наук, Санкт-Петербургский государственный университет, доцент

кафедры арабской филологии, г. Санкт-Петербург

АННОТАЦИЯ

Целью настоящего исследования является анализ специфики локализации программных продуктов на арабский язык. Опираясь на опыт разработки лингвистических программных приложений, автор делает выводы относительно особенностей арабского языка, а также ряда экстралингвистических характеристик, которые необходимо учитывать при создании локализованных версий программных продуктов. В ходе работы рассматривается понятие термина локализация, а также ее возможные классификации. Междисциплинарный характер работы определяет использование методов, свойственных компьютерной лингвистике в сочетании с социолингвистикой. Результаты исследования имеют практическую значимость и могут способствовать совершенствованию технологий обработки арабоязычного материала. ABSTRACT

The present research aims at linguistic analysis ofpeculiarities of the Arabic software localization. Relying upon her own experience in development of software applications, the author makes conclusions about characteristics of the Arabic language, as well as some extra-features that must be considered when developing localized versions of software. The work deals with the concept of the term localization, as well as its classification. Interdisciplinary nature of the research determines its methods, which are typical both for computer linguistics and for sociolinguistics. The results of the research have practical significance and could improve technologies used for Arabic language processing.

Ключевые слова: арабский язык, локализация, формализация, машинный перевод

Keywords: Arabic language, localization, formalization, machine translation

Введение

Современный этап развития научного знания характеризуется все увеличивающими количеством междисциплинарных исследований. Данное обстоятельство особенно актуально в контексте распространения использования технологических решений во всех сферах жизнедеятельности человека [4, с. 3, 376]. Тенденции глобализации в свою очередь подталкивают 1Т - компании к созданию локализованных версий своих программных приложений. В данном исследовании мы рассмотрим особенности локализации для арабоязычного ареала с учетом объективных трудностей формализации арабского языка. Во многом это связано с тем, что «решения, эффективные при обработке материала европейских языков с алфавитным письмом, богатой парадигмой словообразования и четко выраженными на графике границами слов, оказываются малопригодны для восточных языков с иероглифической письменностью, а также языков, письменность которых хотя и построена на алфавитном принципе, однако не всегда позволяет четко маркировать границы между словами, где критерии выделения слов могут трактоваться по-разному» [2, с. 12].

Необходимо отметить, что использование термина «локализация» в последнее время достаточно вариативно, поэтому необходимо рассмотреть его семантическое поле, а также актуальные в данном контексте экстралингвистические факторы.

Понятие локализации

Локализация - комплексная адаптация программного обеспечения к языковым и национальным особенностям другой страны. Процесс локализации программного обеспечения (далее ПО) включает в себя комплекс мероприятий, проводимых совместно программистами и лингвистами. Как правило, данные

мероприятия включают в себя исследование имеющегося материала, проведение его лексического анализа, приведение символов и написания в соответствие с нормами языка, перевод текстовой части продукта и документации к нему, перевод элементов интерфейса, справочной информации, решение проблемы языковых соответствий, тестирование, внесение необходимых корректировок, выпуск готового продукта. При этом в переводе должна учитываться приемлемость для пользователя материала с точки зрения норм, стандартов и законов соответствующей страны (порядок письменной индексации дат, обозначений валют, специфика оформления документации и т.д.).

Работа, по локализации российского программного обеспечения для стран Ближнего и Среднего Востока, учитывая особенности графической системы арабского языка, специфику его принципиально иных типологических особенностей, а также неустоявшуюся систему технической и компьютерной терминологии восточных языков требует привлечения специалистов различного профиля.

Одним из важнейших условий освоения новых и расширения существующих рынков ПО, является перевод продукции и сопутствующей документации на язык потенциальных пользователей, корректировка ПО с учетом их культурных и национальных особенностей. Практика показывает, что грамотная адаптация ПО приводит к расширению доли рынка и, как следствие, росту доходов продавца ПО.

Особенности арабской локализации. Перевод веб-сайтов

Наиболее востребован сегодня вид локализации, связанный с адаптацией веб-сайтов компаний, нацеленных на развитие экономических отношений со странами Ближнего Востока. Определим основные

1 Публикация подготовлена в рамках поддержанного РГНФ научного проекта № 13-04-00425.

особенности, которые необходимо учитывать при локализации веб-страниц:

1. Языковая ситуация в арабских странах заставляет учитывать лингвистические особенности каждой конкретной страны. И даже, несмотря на то, что при переводе текстовой информации целевым языком выступает арабский литературный язык, особенности той или иной страны могут проявляться на уровне использования лексических особенностей и т.д. Кроме того, зачастую компании, занимающиеся локализацией, привлекают для перевода текстовой информации носителей языка, которые в свою очередь, не всегда избегают использования особенностей диалектов своих стран как на уровне лексики, так и грамматики. Поэтому выбор и следование языковому стилю остается крайне актуальной задачей.

2. Передача информации при переводе с языка на язык также может быть неполной в силу ряда экстралингвистических возможностей передачи той или иной информации на арабский язык.

3. Особое внимание следует обращать на передачу изображений и символики: одни и те же рисунки и символы в одних странах могут восприниматься корректно, тогда как в других могут быть запрещенными.

4. Одна из особенностей арабского сайта - это навигация, которая обусловлена чтением арабского текста справа налево, что отражается и на «зеркальном» расположении информации.

Мониторинг арабоязычных версий вебсайтов позволяет выделить типичные закономерности:

- Не вся имеющаяся информация переводится на арабский язык (название логотипа, названия городов и т.п.).

- При создании версии сайта, ориентированной на весь Ближний Восток зачастую указывается флаг отдельно взятого арабского государства, что не вполне корректно, если компания планирует сотрудничать с различными арабскими странами.

- Интересна и передача названия известных брендов арабской вязью: компании стараются сохранить отличительные особенности написания названия своего бренда, что бывает достаточно тяжело, особенно учитывая отсутствие заглавных букв в арабском языке.

Рисунок 1. Образец локализации бренда на арабский язык

Машинный перевод

В процессе локализации перевод играет ключевую роль, однако зачастую мы можем свидетельствовать факт использования автоматических систем перевода, что приводит к значительному количеству ошибок в локализованных версиях программных продуктов и сайтов. К основным причинам низкого качества технологий машинного перевода применительно к арабскому языку можно отнести следующие:

- Особенности арабской графики, многовариантное написание одних и тех же букв.

- Корректность передачи морфологических значений в арабском языке во многом обусловлена спецификой его системы письменности: отсутствие огласовок на письме способствует утрачиванию ряда маркеров словоизменительных моделей, что приводит к ошибкам в их переводе. Решением в данном контексте являлась бы интеграция в систему моделей, опирающихся на синтез морфологических моделей и семантику использованных лексем. Данная задача сложна и уже используется применительно к арабскому языку, однако носит фрагментарный характер.

- Основным выводом тестирования платформы является тенденция обеспечивать перевод с арабского языка посредством использования языка-посредника (в данном случае - английского). Неудачность выбора такого рода перевода обусловлена спецификой систем арабского, английского и русского языков. Известно, что типологически арабский и русский относят к языкам синтетического строя речи, тогда как английский -аналитического. Этот фактор обуславливает и развитость системы морфологических моделей в русском и арабском языках. Таким образом, процесс создания алгоритмов соответствия конкретных морфологических моделей содействовал бы обеспечению более высокого качества перевода.

Синтез речи. Макросинтез

К одному из элементов локализации программного обеспечения можно отнести и технологию синтеза речи - технологию, позволяющую преобразовывать имеющуюся текстовую алгоритмическую информацию в звучащую речь. Технологию синтеза речи обычно делят на две большие группы: «синтез фор-мантный, при котором звук формируется «из ничего», складывается из элементарных гармонических колебаний на разных частотах, и синтез компилятивный, при котором используется заранее записанная и тщательно обработанная вручную звуковая база, представляющая собой набор фрагментов живой речи диктора-человека» [1].

Сегодня технологии автоматического синтеза речи применяются в самых широких сферах: телекоммуникации, автомобильном производстве, образовательных обучающих продуктах, системах ограничения доступа и т.д.

Достаточно распространено и использование макросинтеза - разновидности синтеза речи, который заключается в комбинировании заранее записанных речевых фрагментов необходимой тематической направленности. Такого рода решения используют при передаче стандартных обращений (телекоммуникация, системы оповещения и т.п.).

Рассмотрим принцип использования лингвистического материала в процессе макросинтеза, а также

части)

сочетания с некоторыми существительными (абонент, факс, сообщение и др.)

денежные суммы (необходимо определить список валют)

телефонные номера время суток длительность даты и дни недели консультации

Техническое озвучивание представляемого материала

Техническое озвучивание файлов макросинтеза

Тестирование

Тестирование удаленно

Проверка перевода документации (технической, маркетинговой)

Предварительная проверка голосового интерфейса

Тестирование программного обеспечения Приведем образец написания алгоритмов числительных:

Таблица 1

_Алгоритм образования числительных от 11 до 19

М.р Ж.р.

11 'aHada+N (где № ^Иага) 'iHdaa+X ( где Х= 'ashrata)

12 ЧШпаа + № 'ithnata + X3

13 thalaathata + N thalaatha + X

14 'атЬа'а1а + N 'arba'a + X

15 khamsata + N khamsa + X

16 sittata + N sitta + X

17 sab'ata + N sab'a + X

18 thamaaniyata + N thamaaniya + X

19 tis'ata + N tis'ata + X

От21 до 99:

СОГЛАСОВАНИЕ и порядок слов

числительное

десятки + \уа + единицы

1. Единицы согласуются с исчисляемым по роду и состоянию.

2. Десятки согласуются с жчжляемым по падежу и состоянию Пример:

И. п. -а1-уаит' а1-к1мпш луа ^"-СибЬгшт «двадцагь пятый день» Р.п.' а1-уашп' а1-кЬат15 wa ЮкЬгип В. п. ;а1-уашп!а1-кЬапш1-С1з1тш

Рисунок 1. Пример образования числительных от 21 до 99

Заключение

специфику его разработки. Представим создание программного продукта для сотовой связи. Предполагается, что данный продукт должен автоматически предоставлять следующую информацию: время, дату, количество денег на счете и т.д. Таким образом, очевидно, что перечисленный набор информации будет содержать перечень как стандартных неизменяемых компонентов, так и варьируемых. В случае арабского языка, ситуация осложняется значительным преобразованием словоформ при изменении используемых числительных.

Таким образом, лингвистическая часть работы при проведении макросинтеза с указанными выше задачами может включать в себя следующий перечень действий:

Перевод словарного контента Транслитерация

Составление алгоритмов реализации макросинтеза

количественные числительные порядковые числительные

дробные числительные (целые, десятки, сотые

2 В косвенном падеже 'ithnay + N

3 В косвенном падеже 'ithnatay + X

В данной статье был рассмотрен вопрос локализации программных решений для арабоязычного региона. Отмечены национальные и языковые особенности такого рода деятельности, а также изучены вопросы макросинтеза и адаптации вебсайтов.

Для обеспечения высокого качества локализованных программных решений для арабского языка необходимо учитывать факторы как лингвистического, так и национального характера. При этом структурная формализация языка должна носить гибкий и комплексный характер. Изучение имеющихся методик лингвистического анализа, опыт составления свода морфологической парадигмы арабского языка, словарей и корпуса текстов позволяет разработать языковую модель, которая являлась бы источником с одной стороны для создания и совершенствования технологии машинного перевода, поисковых систем, создания лингвистических программных продуктов, а с другой стороны содержала бы максимальный объем информации для проведения лингвистических исследований, как в рамках одного языка, так и типологического характера. Предлагаемая модель концентрируется на взаимодействии морфологической базы, тематически

маркированного словаря, корпуса текстов. Каждый из представленных элементов несет свою функциональную нагрузку, однако лишь их комплексная интеграция может способствовать совершенствованию разрабатываемых технологических решений для арабского языка.

Список литературы:

1. Жарков И., Скрелин П., Гусев М. Голос времени // КомпьютерПресс, 2005. Вып. 8. URL: http://compress.ru/Archive/CP/2005/8/53/ (дата обращения 20.12.2015).

2. Редькин О. И. Формирование корпуса текстов и определение частотности слов в арабском языке: проблемы и решения // Вестник СПбГУ. Сер. 13. 2014. Вып. 1. C. 14-22.

3. Izwaini S. Amateur Translation in Arabic-speaking Cyberspace // Perspectives: Studies in Translatol-ogy. Vol. 22. Issue 1. 2014. P. 96-112.

4. Redkin O., Bernikova O. ICT and New Approach to Arabic Learning // International Multidiscipli-nary Scientific Conference on Social Sciences and Arts. 2014. Vol.3. P. 375-371.

СТРУКТУРНО-СЕМАНТИЧЕСКИЕ ОСОБЕННОСТИ ДЕОНИМНЫХ ПРИЛАГАТЕЛЬНЫХ В РУССКОМ, КАЗАХСКОМ И НЕМЕЦКОМ ЯЗЫКАХ

Бижкенова Айгуль Ермековна,

доктор филологических наук, профессор, г.Астана / Казахстан

АННОТАЦИЯ Статья посвящена анализу деонимных прилагательных в русском, казахском и немецком языках. Деонимные прилагательные имеют особый словообразовательный механизм, который однако не противостоит традиционным способам образования прилагательных в языке. Эти языковые единицы отличаются своим смысловым содержанием, которое восходит и мотивировано именем собственным в их основе. Деоним-ный словарь с его прагматическим объемом семантики привлекает внимание как один из интегральных лексических компонентов формирования ценностной картины мира.

КЛЮЧЕВЫЕ СЛОВА: языковая картина мира, производные прилагательные, деоним, семантика, прагматика, морфологические и синтаксические способы, категория принадлежности

ABSTRACT. The article is devoted to the analysis of deonym adjectives in Russian, Kazakh and German. Deonym adjectives have their own characteristics in derivation, but they are not opposed to traditional methods of adjectives' formation in the languages, and they practically use a well-established mechanism of derivation. These language units are filled with extraordinary semantic content, which is dictated by a proper name in their basis. Deonym vocabulary in its pragmatic volume of meaning is considered as one of the integral components forming lexical parameters of value model of the world.

KEYWORDS: language picture of the world, derivative adjectives, deonym, semantics, pragmatics, morphological and syntactical means, category of possessiveness.

Введение

Образование слов, восходящих в своей основе к именам собственным - есть явление довольно распространенное во всех естественных языках. Именно эта словообразовательная продуктивность, а вследствие этого, и коммуникативная активность данного явления определила тему данной научной статьи.

Итак, языковой процесс, положенный в основу исследования в качестве его предмета, называется деонимизацией, а лексика, появляющаяся вследствие этого процесса, и представляющая собой объект изучения, именуется деонимной или деонимами. Особой чертой деонимизационного словообразования, по нашему многолетнему наблюдению, является то, что

оно способствует становлению единиц, относящихся к различным номинативным частям речи. В результате вторичной номинации через посредство имен собственных появляется объемный пласт лексики, содержащий в своем составе имена существительные (суб-стантивы), имена прилагательные (адъективы), глагольные единицы, наречия (адвербы) и даже не номинативные слова типа междометий.

Учитывая объем одной статьи, остановимся на результатах исследования одной лишь частеречной категории - производных имен прилагательных. Было выявлено, во-первых, что деонимные прилагательные имеют свои особенности в словообразовании, при этом

i Надоели баннеры? Вы всегда можете отключить рекламу.