Научная статья на тему 'Лингвистический тезаурус таджикского языка'

Лингвистический тезаурус таджикского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
209
66
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Худойбердиев Х.А., Солиев О.М.

Представлено описание разработанного лингвистического тезауруса для таджикского языка объемом более сто пятьдесят тысяч лингвистических единиц, на основе которого создан электронный интерактивный словарь MultiGANJ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Лингвистический тезаурус таджикского языка»

Лингвистический тезаурус таджикского языка

Худойбердиев Х.А., Солиев О.М., Худжандский политехнический институт Таджикского технического университета имени академика М.С.Осими tajlingvo@gmail.com, osoliev@gmail.com

Аннотация

Представлено описание разработанного лингвистического тезауруса для таджикского языка объемом более сто пятьдесят тысяч лингвистических единиц, на основе которого создан электронный интерактивный словарь М^^АШ.

1 Введение

В статье изложены полученные результаты научно-исследовательского проекта «Разработка лингвистического тезауруса для таджикского языка» (проект Государственное бюджетное

финансирование №0115Т100455)

сотрудников кафедры программирование и информационные системы ХПИТТУ имени академика М.С.Осими.

Тезаурус - это база данных, хранящая информацию о различных связях (отношениях) между словами (словарными статьями) и словосочетаниями (фразовыми статьями).

Очевидно, что технический прогресс невозможен без межкультурных

коммуникаций. Для преодоления языкового барьера лингвистами составлено множество словарей, но, к сожалению, лишь не многие из них содержат информацию, необходимую для перевода и понимания текстов, связанных с изучением языка. Кроме того, при всех своих несомненных достоинствах, печатные словари приводят к серьезному парадоксу - чем больший объем информации содержится в словаре, тем тезаурус более ценен, более развито научный аппарат, но при этом тем сложнее его использовать.

С целю экономии времени пользователя появилась потребность в разработке электронного словаря, содержащего достаточное количество лингвистических единиц для восприятия и перевода текстов

на таджикском языке, и при этом имеющего удобный вид компьютерного приложения.

Для решения этой проблемы, была поставлена задача разработать

лингвистический тезаурус для таджикского языка. А также, на базе полученного тезауруса создать компьютерный интерактивный словарь MultiGANJ.

В связи с этим на кафедре программирование и информационные системы ХПИТТУ разработан

интерактивный многоязычный электронный тезаурус достаточно большого объема.

2 Особенности тезауруса и словаря

Тезаурус таджикского языка создавалось в течение нескольких лет с использованием отечественных и зарубежных словарей, публикаций в оригинальных иностранных изданиях и опыта личного общения со специалистами таджикского языка[1].

Разработанный тезаурус и словарь MultiGANJ предназначен для перевода слов из таджикского языка на русский и английский язык и обратно. Продукт также предназначен для углублённого изучения таджикского, русского и английского языков.

База тезауруса содержит более 65000 таджикских, 70000 русских и 35000 английских слов для перевода. А также база тезауруса содержит более 3500 синонимов, 1600 антонимов и 780 омонимов слов таджикского языка [2].

Программный продукт работает автономно, основан на стандартной графике, имеет стандартный интерфейс пользователя. Обладает рядом мощных особенностей, таких как "Поиск по шаблону", "Сканирование выделенных слов", "Нечёткий запрос" (см. Рис. 1).

Для правильного отображения таджикских букв используются шрифты с поддержкой Unicode [3].

•MnltifliHiJ ttktîiiiuiry

_ Г X

Clear

намуд

I ' намуд M]

намудан

намудор

намудрить

намудрствовать

намун

намуна

намунавор

намунаей

намунагирй

намунакор

намусливать

_

S

Г .►]

□ Scan

M

\

с— Tajik Russian(Tj'Ru) --■>

намуд

1) вид, внешность, наружность

2) образец, намуд и берунй (зо: аз руи намуд 6 ар о и намуд намуд доштан

ч S 9

И «

пример

Russian Tajik(Ru-Tj) —> м 1, мисол,назира; привести пример мисол (наэира) овардан 2. намуна, тимсол, ибрат: пример мужества намунаи мардонагй, тимсоли диловарй: сила примера таъсири (^увваи) ибрат: брать пример с кого-л. аз касе ибрат

m

Рис 1. Главное окно MultiGanj

Интуитивно понятный интерфейс программы позволяет справиться с переводом пользователю даже самого низкого уровня компьютерной подготовки.

Словарь построен по алфавитно-гнездовой системе - термины, являющиеся ведущими, расположены строго в алфавитном порядке, что позволяет быстро найти нужное слово или словосочетание. При этом благодаря «всплывающим подсказкам» у пользователя появляется уверенность в том, что именно это слово является в конкретном контексте адекватным и правильно использовано для выражения определенного технического понятия.

Для работы со словарем не требуется доступ к сети Internet, что отличает данный словарь от большинства словарей на таджикском языке. Поэтому пользоваться программой можно в любом месте и в любое время, не имея привязки к сети. Следовательно, данный словарь очень удобен для загрузки в мобильные устройства, для автономного использования специалистами не посредственном на месте их действий [4].

В любой момент времени существует возможность пополнить словарный запас приложения, используя один из двух возможных вариантов. Так для начинающих пользователей разработана возможность добавления новых слов с помощью интерфейса программы.

Каждой лингвистической единице может быть приведено в соответствие как одно слово, так и множество вариантов перевода. Толкование выражения может изменяться или дополняться в любое время, т.е. тезаурус и словарь на его основе достаточно легко модернизируются.

При выделении в тексте слова, требующего перевода, словарь автоматически предоставит все варианты, внесенные в память программы как соответствующие.

Поиск слов внутри словаря осуществляется посредством командной строки. При этом в процессе набора слова тезаурус «подсказывает» пользователю похожие слова, что дополнительно увеличивает скорость поиска и повышает его интерактивность.

Структура программной среды позволяет добавлять к уже имеющимся словарям новые словари, благодаря чему существует возможность создания единой многоязычной базы лингвистических терминов в одной оболочке.

3 Область применения

Тезаурус и словарь могут быть полезны и интересны не только студентам, магистрантам, аспирантам и другим начинающим переводчикам научно-технических и в частности, иностранных источников, но и опытным переводчикам, потому что ИКТ в настоящее время достаточно интенсивно развивается, особенно в связи с созданием новых нетрадиционных конструкций и их практических приложений.

Также тезаурус и словарь могут быть востребованы и в среде так называемых переводчиков, работающих с новейшими информационными технологиями, так как они способны существенно повысить скорость перевода текстов на таджикском языке.

На сегодняшний день для решения проблемы использования качественного контента таджикского языка в Интернете и получения богатой по содержанию смысловой текстовой информации необходимо организовать лингвистический тезаурус.

Необходимо отметить, что тезаурус в отличие от толкового словаря позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами.

Разработка лингвистического тезауруса для таджикского языка как основание для создания комплексов компьютерных программ автоматической проверки грамматики текстовой информации, а также повышение качества контента таджикского языка в Интернете.

4 Выводы

В рамках выполнения проекта были решены следующие задачи:

Изучены стандарты, структуры русского и английского тезаурусов по компьютерной лингвистике.

Разработано структура компьютерного лингвистического тезауруса для таджикского языка.

Разработан лингвистический тезаурус для таджикского языка.

Разработаны программные модули информационного поиска текстовой информации на базе таджикского тезауруса.

Полученный тезаурус реализован как электронный словарь MultiGANJ.

Научная и практическая реализация разработанного тезауруса позволит создать новые программные обеспечения, таких как проверка грамматики таджикского языка, переводчиков текстовой информации из таджикского языка на другие языки, разработка поисковых систем на таджикском языке.

Полученные результаты будут способствовать научному развитию компьютерной лингвистики таджикского языка и в дальнейшем позволит получить новые достижения в этой сфере.

Благодарности

Выражаем огромную признательность администрации Худжандского политехнического института ТТУ имени академика М.Осими, сотрудникам кафедры программирования и информационных систем, также, научному руководителю, Академика АН РТ, д.ф.м.-н., Усманова

З.Д.

Список литературы

1. Худойбердиев Х.А., Косимов А.А.

О соотношении словоформ и словоупотреблений в русском переводе произведения А.Фирдоуси "Шахнаме". Доклады Академии наук Республики Таджикистан. ISSN 0002-3469. Том 58, № 9. с.786-792., 2015.

2. Усманов З.Д., Довудов Г.М. Морфологический анализ словоформ таджикского языка (монография). Душанбе, "Дониш", 2015, 130 с.

3. Худойбердиев Х.А. Об автоматическом конвертировании таджикского текста к стандартной графике. Доклады Академии наук Республики Таджикистан. ISSN 0002-3469. Том 57, № 3. с.210-214. 2014.

4. Официальный сайт ЦРИТ "Зафар Усманов". URL: https://tailingvo.ti/ru/online-slovar (дата обращения: 01.03.2017)

i Надоели баннеры? Вы всегда можете отключить рекламу.