Научная статья на тему 'Информация о результатах научной школы Таджикистана по компьютерной лингвистике в 2011 г'

Информация о результатах научной школы Таджикистана по компьютерной лингвистике в 2011 г Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
70
25
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Усманов З. Д.

К настоящему времени в Таджикистане исследования по лингвистике с применением математических методов достигли такого уровня и приобретают такой размах, что можно говорить о возникновении научной школы по компьютерной лингвистике. Некоторые её достижения находят отражение в сайтах www.tijorat.tj и www.komplingv.tj .

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информация о результатах научной школы Таджикистана по компьютерной лингвистике в 2011 г»

«Машинная лингвистика»

Информация о результатах научной школы Таджикистана по компьютерной лингвистике в 2011 г.

Усманов З.Д.

Технологический университет Таджикистана, профессор, д.ф.-м.н., zafar-usmanov@rambler.ru

К настоящему времени в Таджикистане исследования по лингвистике с применением математических методов достигли такого уровня и приобретают такой размах, что можно говорить о возникновении научной школы по компьютерной лингвистике. Некоторые её достижения находят отражение в сайтах www.tijorat.j www.komplingv.tj.

По итогам прошедшего 2011 года выделяются следующие результаты.

1ГТ1 U U 1 U *J

. Т аджикский компьютерный морфологический анализатор, который выполняет автоматическое разделение однокоренного слова на морфы - префиксы, постфиксы и корни (в качестве лемм) и приписывает грамматические параметры корнями словоформам [1]. Работа анализатора основана на обширной базе морфов, выявленной в результате статистической обработки самых разнообразных текстов и содержащей 72 префикса, 1725 постфиксов и свыше 63586 корней.

Программный продукт предназначен для использования в программах проверки орфографии, интеллектуальных поисковых системах, в машинном переводе, при авторизации текста, проведении статистических расчетов, составлении конкордансов и в учебном процессе. Адресуется научным работникам, прежде всего математикам и филологам, проектировщикам программных продуктов, преподавателям вузов и общеобразовательных школ.

Распространяется в виде пакета компьютерных программ на CD-ROM.

Для функционирования программного продукта требуется: ПЭВМ с процессором Pentium-II, 128 Мб ОЗУ, 50 Мб дискового пространства.

II. Таджикский языковый пакет для системы OpenOffice.Org, см. [2],осуществляет автоматическую проверку орфографии таджикских слов и при обнаружении ошибок предлагает возможные варианты (меню) для их редактирования.

Пакет адресуется широкому кругу пользователей, пишущих на таджикском языке. Пакет предназначен для использования во всех сферах общественной жизни, генерирующих печатную и письменную информацию на таджикском языке. Создание пакета является значительным событием в деятельности информационного сообщества Таджикистана. Ему предшествовало скрупулёзное научное исследование по выявлению исчерпывающих баз префиксов, корней и постфиксов таджикского литературного языка. Повсеместное внедрение пакета может внести весомый вклад в повышение уровня грамотности всех слоев населения Республики, пишущих на таджикском языке.

Распространяется в виде пакета компьютерных программ на CD-ROM. Для функционирования программного продукта требуется: ПЭВМ с процессором Pentium-

4, 128 Мб ОЗУ, 250 Мб дискового пространства с OPS/ОС Windows 9x/XP/Vista и система OpenOffice 2.x или OpenOffice 3.x.

III. Автоматическое согласование компьютерных шрифтов таджикского языка, см. [3]. Существо проблемы заключается в том, что стартовавший в нашей Республике в 90-х годах XX века процесс информатизации носил неуправляемый, стихийный характер, который породил значительное количество широко употребительных компьютерных шрифтов, используемых вплоть до настоящего времени для подготовки различных текстов на таджикском языке. Возникшая ситуация создала излишние трудности в возможности их использования в передаче, обработке и приеме электронных документов, превращая их в сугубо локальную продукцию организаций, их породивших.

Эту проблему удалось полностью преодолеть путем её предварительной формализации, затем алгоритмизации способа решения и, естественно, создания компьютерной программы, позволившей автоматически преобразовывать нестандартный электронный документ в стандартный.

IV. Автоматическая коррекция таджикских текстов. Исследования по этому направлению составляют единый фронт с предыдущей работой и нацелены на исправление ошибок в текстах, написанных на таджикском языке. Потребность в предварительной коррекции текста существенно актуализировалась в настоящее время в связи с генерацией потока письменной и печатной информации с огромным количеством допускаемых ошибок. Использование таких текстов выдает абсурдные результаты и полностью подрывает доверие к программным продуктам, выполняющим автоматическую обработку такой информации.

Так, например, несмотря на то, что стандарт таджикской компьютерной графики на основе UNICODE, утвержденный Постановлением Правительства РТ за № 330 от 02.08.2004 г., рекомендован к применению на территории республики, многие пользователи РС по разным причинам игнорируют его, набирая таджикские тексты на нестандартной графике или же просто на клавиатуре с русским алфавитом. В последнем случае, довольно распространенном, в тех или иных словах набираемого текста сознательно вносится систематическая ошибка правописания, обусловленная замещением специфических таджикских букв f, й, к,, у, х, ч (Tj-буквы) их аналогами г, и, к, у, х, ч (Ru-буквы) по правилу Tj ^ Ru.

Процесс устранения в тексте подобного рода ошибок при условии, что ошибки иного рода отсутствуют, удалось полностью автоматизировать на основе изучения статистических закономерностей распределения специфических таджикских букв в текстовой информации и создании на базе приобретенных знаний высокоэффективной корректирующей компьютерной программы, см. [4-6].

V. Разработка концепции машинного перевода с таджикского языка и на таджикский язык. Представителям научной школы уже под силу примеряться к решению таких особо трудных задач, как, например, проектирование системы машинного перевода с таджикского языка на другие языки. Первый шаг в этом направлении уже сделан. Техническое задание на проектирование такой системы, в частности для реализации русско-таджикского машинного перевода, разработан

и и u и Г п 1 ТТ 1 f и

российско-таджикской инициативной группой [7]. Дело за финансовой поддержкой. Она чрезвычайно необходима, поскольку для осуществления проекта требуется привлечение значительных трудовых и материальных затрат.

На данный момент исключительно на инициативной основе начато продвижение в решении проблемы проектирования таджикско-эсперанто-таджикского машинного

перевода. Эсперанто - чрезвычайно стройный, лишенный исключений искусственный язык, продукт творческого гения польского лингвиста Заменгофа,- обладает многочисленными достоинствами для своего использования в межъязыковых коммуникациях. Надо полагать, что этот язык в вопросах машинного перевода сможет оказать нам неоценимую услугу, прежде всего, в точной передаче смысла предложений.

Литература

1. Усманов З.Д., Давудов Г.М., Солиев О.М. Таджикский компьютерный

морфоанализатор // Лицензия (информационный ресурс) зарегистрирован ЗИ-03.2.220 Т1, 20.12.2011. Национальный патентно-информационный центр. Министерство

экономического развития и торговли РТ.

2. Усманов З.Д., Солиев О.М., Давудов Г.М. Таджикский языковый пакет для

системы 03.2.222 OpenOffice.Org// Лицензия (информационный ресурс) зарегистрирован ЗИ-Т1, 11.01.2012. Национальный патентно-информационный центр.

Министерство экономического развития и торговли РТ.

3. Гращенко Л. А. Клиент удаленной автоматизации согласования компьютерных шрифтов таджикского языка // Доклады АН РТ. - 2011. - т. 54. - №5. -

С. 367 - 370.

4. Эвазов Х.А. Статистические закономерности таджикского языка, связанные с используемым в нем расширенным кириллическим алфавитом //Доклады АН РТ. -2010. - т. 53. - №12. - С. 903 - 906.

5. Усманов З.Д., Эвазов Х.А. Компьютерная коррекция таджикского текста, набранного без использования специфических букв // Доклады АН РТ. - 2011. -т. 54. -№1. - С. 23-26.

6. Эвазов Х.А. Оценка эффективности компьютерной программы, корректирующей таджикский текст, набранный на клавиатуре с русским алфавитом. Материалы апрельской научно-практической конференции ТУТ, 2011.

7. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады АН РТ. - 2011.- Т. 54. - №.4- С. 279-285.

i Надоели баннеры? Вы всегда можете отключить рекламу.