Научная статья на тему 'Разработка параллельного корпуса таджикского и русского языков'

Разработка параллельного корпуса таджикского и русского языков Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
465
60
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Худойбердиев Х.А., Солиев О.М., Солиев П.А.

Представлено описание разработки параллельного таджикско-русского корпуса. Рассматривается общий механизм корпуса, структура базы данных текстов, алгоритмы обработки текста, а также автоматическое управление корпуса с использованием авторской программы Taj-Rus-Corp. Разработка параллельного корпуса будет способствовать организации машинного перевода текстов с таджикского языка на русский.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка параллельного корпуса таджикского и русского языков»

Разработка параллельного корпуса таджикского и русского языков

Худойбердиев Х.А., Солиев О.М., Солиев П.А.,

Худжандский ПИ ТТУ им. акад. М.С.Осими, tajlingvo@gmail.com, osoliev@gmail.com, psoliev@gmail.com

Аннотация

Представлено описание разработки параллельного таджикско-русского корпуса. Рассматривается общий механизм корпуса, структура базы данных текстов, алгоритмы обработки текста, а также автоматическое управление корпуса с использованием авторской программы Taj-Rus-Corp. Разработка параллельного корпуса будет способствовать организации машинного перевода текстов с таджикского языка на русский.

1 Введение

В статье обсуждаются результаты, которые получены в рамках научно-исследовательского проекта «Разработка таджикского переводчика на основе технологии Google» (№0117TJ00800.2017) кафедры программирование и информационные системы ХПИТТУ имени академика М.С.Осими.

Таджикский язык является литературным и разговорным языком таджиков, государственный язык республики Таджикистан. Таджикский язык распространён в некоторых районах Узбекистана, Казахстана, Киргизии и северного Афганистана. Таджикский язык - язык древней культуры и многовековой литературной традиции [1].

Русский язык является одним из восточнославянских языков, национальный язык русского народа, который является одним из наиболее распространённых языков мира, шестым среди всех языков мира по общей численности говорящих и восьмым по числу стран использующих его как второй государственный язык.

Большое собрание параллельных текстов называются «параллельным корпусом». Разработка параллельного корпуса требует выравнивания параллельного текста с идентификацией соответствующих друг другу предложений в обеих половинах параллельного текста [2].

На практике параллельные корпусы используются для того, чтобы получить перевод текста в определенном формате.

С научной точки зрения формирование параллельного корпуса позволяет реализовать важные научные и исследовательские задачи в сфере компьютерной лингвистики.

Разработка таджикско-русского параллельного корпуса увеличит продуктивность отношения между таджикскими и русскими народами, поможет населению двух стран преумножить знания обоих языков.

В данной работе рассмотрены описание цели, предназначение и процесс разработки та-джикско-русского параллельного корпуса. Предложены дальнейшие способы использование корпуса в машинном переводе. На сегодняшний день в Таджикистане одной из наиболее важных задач в области компьютерной лингвистики считается машинный перевод с таджикского языка на другие языки и обратно. В том числе для перевода текстов с таджикского языка на русский требует создания параллельного корпуса, доказывая этим актуальность задачи.

Также на фоне созданного корпуса появляется возможность провести ряд статистических исследований, обработки текстовой информации, исследования элементов используемых языков.

В параллельный корпус включены тексты из следующих областей: политика; классическая и современная литература; история; юриспруденция и право; журналистика; межгосударственные договора и соглашения.

В рамках создания параллельного корпуса выполнены следующие задачи:

1) репрезентативная выборка текста;

2) предварительная обработка [3, 4];

3) описание источников текста;

2) выравнивание текстов;

3) разработка алгоритмов обработки текста;

4) создание программы Taj-Rus-Corp с возможности поиска;

5) ввод текстов в параллельный корпус;

6) статистический анализ данных;

Разработка параллельного корпуса таджикского и русского языков

7) разработать экспериментальные модули машинного перевода.

2 Структура базы данных корпуса

В базу данных параллельного корпуса входит следующая информация: язык, вид, название документа, автор, источник и год издания текста. Структура базы данных разработана с использованием системы управления базы данных MySQL, которая позволяет хранить и обработать большое количество данных. Основная таблица параллельного корпуса состоит из следующих полей: rt - порядковый номер; toj - текст на таджикском языке; rus - перевод текста на русском языке; namud - вид текста; matn - название документа; muallif - автор; manba - источник текста;

sol - год издания.

3 Программа Taj-Rus-Corp

Для создания параллельного корпуса и непосредственно формирования базы данных текстов используется авторская программа Taj-Rus-Corp. Эту программу также можно использовать для создания и формирования параллельных корпусов других языков. С помощью программы создается основа параллельных текстов на двух или более языках с функциями управления этих корпусов. Программа поддерживает различные шрифты соответствующих языков в тексте и поддерживает кодировку Unicode. Предусмотрено полуавтоматическое сравнение текстов и выравнивание текста по предложениям или по абзацу. Также имеется возможность обработки текста по предложенным знакам препинания.

"и Taj-Rus-Corp

Файл бо забоям тоники

www.tajlingvo.tj

Файл бо забони руси

Чумхурии Точикистон. бо вучуди тагйирёбии вазъи сиёсиву шстисодй в а амниятии чахон, дар рохи пешрафти бемайлони икгисодй. расидан ба хадафхои стратеги ва ба ин васнла таъмин намудани зиндагии шоистаи ахолй бо кадамхои устувор пеш меравад.

Аммо вактхои охир дар чахон раванди бартаричуй, мусаллахшавии бошитоб. пайдоиши нишонахои мархалаи нави "чанги сард" боиси нигаронй гардидааст. Соли ч;орй дар гушахои гуногуни олам нооромиву низоъхо идома ёфта. барон чомеаи чахонй хамчун айёми душвору пуртазод эътироф гардид.

Дар ин давра зиёда аз сад давлати дунё мавриди хамлахои Тахлиди матн

Республика Таджикистан, несмотря на изменения в политической и экономической ситуации и в вопросах безопасности в мире, делает устойчивые шаги по пути поступательного экономического развития, достижения стратегических целей во имя обеспечения достойной жизни народа.

Вызывает озабоченность то, что в современном мире в последнее время набирает силу процесс утверждения своего превосходства, налицо поспешное вооружение, а также наблюдаются признаки начала нового этапа «холодной войны».

текущем году во многих точках планеты продолжались :онфликгы и боестолкновения. это был тяжелый и | отиворечивый период для мирового сообщества.

Тахдили матн

Чумхурии Точикистон, бо вучуди тагйирёбии вазъи сиёсиву иктисодй ва амв А Аммо вактхои охир дар чахон раванди бартаричуй, мусаддахшавии бошитс Соли ч;орй дар гушахои туногуни олам нооромиву низоъхо идома ёфта, оарс Республика Таджикистан, несмотря на изменения в политической и эконом; А Вызывает озабоченность то, что в современном мире б победнее Бремя наби В текущем году ео многих точках планеты продолжались конфликты и боес

Лар ин лавра злела аз сал давлати дунё маврили хамлахои гайриинсонии т^И

Вокеият чунин аст, ки чу*рофияи нооромихо торафт доман пахн намуда, та Идомаи минбаъдаи ин холат метавонад боиси амик. гардидани тахдилу хат Дар мархалаи кунунй кишвари мо бо максади вокушшгп саривактй 5а тахд: Дар ин раванд, барои Чумхурии Точикистон хамгироии бештар бо чомеаи ч Мо чонибдори низоми чахошш одилона, бидуни чашу низоъ, густариши xa: v Реальность такова, что география распространения конфликтов ширится вс Дальнейшее продолжение этой ситуации может привести к усилению полтп В настоящее время наша страна с целью своевременного реагирования на тл В этом процессе для Республики Таджикистан важным является большая из Мы за справедливую мировую систему, без войн и конфликтов, укрепление v

Таддили омории корпус

Чусту^уи маълумот дар корпус

Сабти матн ба базам маълумот

Рисунок 1. Интерфейс выравнивания предложений в программе Taj-Rus-Corp

Необходимо отметить, что программа Taj-Rus-Corp дает возможность проведения сортировки, фильтрации и поиска информации в параллельном корпусе. Перечисленные функции управления в параллельном корпусе обеспечивают возможность осуществления машинного перевода. Программные модули разработаны с использованием различным алгоритмов обработки данных текстовой информации. В качестве элементов поиска в тексте выбраны уни-граммы, биграммы, триграммы слов. Также

можно использовать различные режимы вывода результатов в формате TXT и HTML, см. рисунок 1.

Наиболее научно-теоретический аспект использования параллельного корпуса можно отметит как статистический анализ данных. Предусмотрены возможности подсчета частот элементов в тексте, такие как слоги, слов и словосочетаний. Перечисленные функции дают возможность получить необходимые характеристики о природе языков корпуса.

В программе Taj-Rus-Corp используются следующие алгоритмы и методы поиска: простой линейный поиск по тексту; расширенный поиск с использованием регулярных выражений; поиск по элементам текста; параллельный поиск по двум языкам. Основным инструментом поиска является структурный язык запросов SQL. Также использованы возможности полуавтоматического морфологического анализа с применением регулярных выражений. Функция поиска расширяется с возможностью нахождения словоформ и словоупотреблений, ключевых слов по леммам [5, 6].

4 Заключение

Подытоживая полученные результаты, можно отметить, что разработанный параллельный корпус требует усовершенствования. В будущем планируется улучшение функциональных возможностей предварительной обработки текстов. Также планируется применение автоматического морфологического анализа. Создаются более мощные средства в частности алгоритмы и методы поиска для вывода результатов. На основе параллельного корпуса формируются терминологические и специальные словари. Разрабатываются различные статистические методы анализа текста на базе более существенных параметров и элементов текстовой информации. Все полученные результаты будут внедрены и основаны как единая модель для разработки новых параллельных корпусов связанных с таджикским языком [7].

Список литературы

[1] Расторгуева В.С. 1956. Очерки по таджикской диалектологии. - Сталинабад : Изд-во Акад. наук Таджикской ССР, 1956. - 80 с.

[2] Захаров В.П. 2005. Корпусная лингвистика. -СПб.: СПбГУ.

[3] Усманов З.Д. 2012. Об упорядоченном алфавитном кодировании слов естественных языков, Доклады Академии наук Республики Таджикистан. т.55, № 7, с. 545-548.

[4] Худойбердиев Х.А. 2014. Об автоматическом конвертировании таджикского текста к стандартной графике. Доклады Академии наук Республики Таджикистан. т.57, № 3. с. 210-214.

[5] Усманов З.Д., Довудов Г.М. 2015. Морфологический анализ словоформ таджикского языка (монография). Душанбе, "Дониш", 130с.

[6] Худойбердиев Х.А., Солиев О.М. 2017. Лингвистический тезаурус таджикского языка. Новые информационные технологии в автоматизированных системах. МИЭМ НИУ ВШЭ. Москва, с. 103-106.

[7] Худойбердиев Х.А., Рахмонов З.А. 2018. Логическая структура и анализ артефактов машинного перевода. Вестник ХПИТТУ имени академика М.Осимй, №2(7), Худжанд, с. 7-11.

i Надоели баннеры? Вы всегда можете отключить рекламу.