КОМПЬЮТЕРНЫЙ УЗБЕКСКО-КАРАКАЛПАКСКИЙ ПЕРЕВОД ТЕКСТОВ
© Кадыров А.А.*, Бурханов Ш.А.*
Нукусский филиал Ташкентского университета информационных технологий, Республика Узбекистан, г. Нукус
В современном динамично меняющемся мире, для поддержания высокого профессионализма в своей сфере, необходимо всегда оставаться на плаву в потоке информации. И для этого зачастую необходимо владеть информацией на иностранном языке, что может быть затруднительно при незнании этого языка. В этом процессе доступа к иноязычной информации незаменимым инструментом являются электронные словари и переводчики.
Ключевые слова: электронные словари, переводчики, словари и обучение, алгоритмы машинного перевода.
Наша эпоха не зря называется эпохой информационных технологий. Компьютерные и мобильные технологии уже давно прочно вошли в наш быт. Вся современная инфраструктура, телекоммуникации основываются на информационных технологиях. А Интернет стал одним из главных источников контента - в Интернете мы узнаем о мировых новостях, сводках погоды, скачиваем учебники, читаем статьи.
Несмотря на стремительное развитие Интернета, перед конечными пользователями встает проблема нехватки контента на некоторых языках. К примеру, бывает достаточно сложно найти некоторую специфичную информацию на узбекском или каракалпакском языке. Между появлением какой либо полезной информации на английском или русском языке и ее переводом на узбекский и каракалпакский проходит иногда довольно значительный период, и перед пользователями встает выбор: либо ждать появления перевода, либо попытаться выполнить перевод самому.
Именно тут неоценимым инструментом для пользователей Интернета и компьютера становятся электронные переводчики - специализированные программы автоматизированного перевода текстов с одного языка на другой. Идея использования компьютера как инструмента машинного перевода появилась после изобретения первых вычислительных машин и появления первых программ для них. Первые практические результаты были получены только в 1954 году. На сегодняшний день разработано множество систем машинного перевода текстов, сюда входят такие гиганты, как Google Translate,
* Магистрант.
* Доцент, кандидат физико-математических наук.
PROMT, ABBY Lingvo и другие [1]. Но, несмотря на многолетние исследования, проблема точного перевода текстов широкой тематики до сих пор остается нерешенной. Тем не менее, электронные переводчики активно используются как инструмент для ориентации в современном языковом пространстве.
В данной статье будет рассмотрена более узкая задача компьютерного перевода текстов с узбекского языка на каракалпакский и обратно.
Существует несколько форм организации перевода текстов при участии человека и компьютера [2]:
1. С предварительным редактированием - с целью приспособления текста для обработки компьютером, что позволяет исключить неоднозначности при переводе.
2. С постредактированием - компьютер переводит текст, редактор вносит корректировки в результирующий текст.
3. Интерактивный перевод - человек интерактивно принимает участие в переводе, разрешая сложные неоднозначные ситуации.
4. Смешанные системы.
Как правило, при компьютерном переводе специальная программа выполняет синтаксический анализ исходного текста, текст делится на предложения, предложения - на слова. Далее, определяется структура каждого предложения, после чего данная структура преобразуется в структуру предложения конечного языка. Но естественно, не всегда можно правильно определить, как построено предложение. Часто в тексте подразумевается некая мысль, которая должна быть понятна носителю языка, но которую программа просто не сможет уловить. Эти и другие обстоятельства препятствуют созданию полностью автоматизированной системы перевода текстов.
В Республике Каракалпакстан государственными языками являются каракалпакский и узбекский языки. Следовательно, большая часть документации ведется одновременно на двух языках - на каракалпакском, для внутреннего использования, и на узбекском, для отчетов и некоторых других документов.
Авторами предложено использовать схожесть грамматики двух вышеуказанных языков для разработки системы компьютерного перевода текстов. Узбекский и каракалпакский языки, в числе прочих тюркских языков, относятся к типу агглютинативных языков, то есть формы слова образуются при помощи «приклеивания» к основе слова суффиксов и аффиксов. Сравнительный анализ показывает, что перевод текста с узбекского языка на каракалпакский можно алгоритмизировать.
Суть алгоритма состоит в следующем: исходный текст делится на слова. Далее, каждое слово исходного текста разбивается на морфемы, после производится поиск выделенных основ в базе данных и их перевод, после чего к переведенной основе в нужном порядке добавляют переведенные суффиксы и префиксы.
Современные информационные технологии в образовательной деятельности 33
Faylni di skdan о' о eh i £ i sil
[Fayl][ni] [d V isk][dan] [о'ehi г] [isb|
[Fay1][di] [ V disk][ten] [о' shir] [i*]
Fay1d i V di sk ten о stiiciw
Рис. 1. Алгоритм перевода (упрощённый вариант)
Каракалпакский язык по сравнению с узбекским имеет большее количество словообразовательных суффиксов. Например, узбекский суффикс -lar, служащий образованию множественного числа слова, имеет два аналога в каракалпакском языке - -lar и -1er. Использование того или иного суффикса зависит от мягкости предыдущего слога слова: после мягкого слога употребляется суффикс -1er (da'pterler - тетради, слог ter мягкий), после твердого -lar (kiíaplar - книги, слог tap твердый). Некоторые узбекские суффиксы имеют по 4 каракалпакских аналога, в этом случае выбор суффикса более сложен, и зависит произношения морфемы.
Авторами была разработана программа Z-Translate, работающая по вышеописанному алгоритму. В базе данных программы хранится около 7000 уз-бекско-каракалпакских пар. После ввода исходного текста и команды на перевод программа разбивает текст на слова, после чего каждое слово анализируется по алгоритму. Программа переводит словосочетания «как есть», то есть слово в слово, в то время как многие словосочетания переводятся не на прямую. Для реализации функции перевода словосочетаний автор предлагает следующий алгоритм: создать базу словосочетаний на двух языках, затем, начиная с первого слова текста, сравнивать рядом стоящие пары слов со словосочетаниями из базы.
На данный момент ведется работа по расширению базы данных переводчика, а также по распознаванию различных словоформ словосочетаний. Для пополнения базы автором разработана программа-дополнение к переводчику, где можно вводить пары слово-перевод.
На следующем этапе планируется разработка русско-каракалпакского и русско-узбекского электронного переводчика текстов. Разработка подобной системы будет иметь огромное значение в сфере образования, так как позволит автоматизировать процесс «локализации» материалов, позволит постоянно быть в курсе мирового информационного потока. Наибольшую
сложность в создании системы представляет разработка алгоритма трансформации грамматики русского языка в грамматику каракалпакского языка. Для грамматического анализа русскоязычного текста предлагается генерировать хэш-таблицу с заполненными грамматическими формами слов, что позволит сократить время на анализ текста. Выходной текст на каракалпакском языке будет генерироваться на основе базы данных правил перевода.
Использование электронного переводчика может оказать неоценимую помощь в самых различных сферах. Выходной текст, несмотря на неизбежную неточность перевода, можно использовать как черновик для дальнейшего редактирования профессиональным переводчиком. Во многих сферах, где не нужна абсолютная точность перевода, и где важно передать основной смысл текста, электронный переводчик может стать удобным инструментом на рабочем столе пользователей.
Список литературы:
1. Едемский М. Программы автоматического перевода // Мир образования. - 1996. - № 11-12. - С. 54-55.
2. Все о машинном переводе // СошриегВШ. - 2007. - № 22.
3. Кулагина О.С. О современном состоянии машинного перевода // Математические вопросы кибернетики. - Вып. 3. - М.: Наука, 1991. - С. 5-50. -Библиография из 140 названий.
4. Марчук Ю.Н. Проблемы машинного перевода. - М.: Наука, 1983.
5. Интеллектуальные системы общего назначения [Электронный ресурс]. - Режим доступа: http://www.intellsyst.ru.
6. http://www.promt.ru.
7. http://www.socrat.ru.
ДИСТАНЦИОННОЕ ОБРАЗОВАНИЕ В ТУРИЗМЕ
© Калинина Н.Д.*, Смолина С.Д.
Тульский государственный университет, г. Тула
В данной статье рассматривается проблема нехватки кадров в сфере туризма и гостеприимства, имеющих высшее профессиональное образование, а также пути решения вышеупомянутой проблемы, путем использования Е-1еагш^ образовательных технологий. Дается определение термина «дистанционное образование», рассматриваются преимущества использования подобной системы предоставления образовательных услуг на базе ФГБОУ ВПО «Тульский государственный университет».
Ключевые слова дистанционное образование, туризм, высшее образование, е-1еагш^ технологии.
* Начальник отдела коммуникаций Интернет-института Тульского государственного университета, кандидат технических наук, доцент.