Научная статья на тему 'Программный стенд для исследования глагольных конструкций таджикского языка'

Программный стенд для исследования глагольных конструкций таджикского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
105
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / ГЛАГОЛЬНАЯ КОНСТРУКЦИЯ / ГРУППА СКАЗУЕМОГО / АЛГОРИТМ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / ПРОГРАММНЫЙ СТЕНД

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Собиров Д. Д.

В статье дается описание разработанных программного стенда и информационных баз данных для исследования глагольных конструкций на основе алгоритма распознавания глаголов таджикского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программный стенд для исследования глагольных конструкций таджикского языка»

Программный стенд для исследования глагольных конструкций

таджикского языка

Д.Д.Собиров

Таджикский национальный университет jamshed_corp @ mail. ru

Аннотация. В статье дается описание разработанных программного стенда и информационных баз данных для исследования глагольный конструкций на основе алгоритма распознавания глаголов таджикского языка.

Ключевые слова: таджикский язык, глагольная конструкция, группа сказуемого, алгоритм, морфологический анализ, программный стенд.

В рамках проводимого исследования глагольных конструкций (ГК) таджикского языка (ТЯ) [1], очередным этапом является разработка проблемно-ориентированного программного стенда на основе алгоритма распознавания таджикских глаголов [2]. Под глагольной конструкцией понимается семантически целостная (неделимая) последовательность словоформ, представляющая в предложении сказуемое - глагол

(и и и

простой, сложно-именной, сложно-деепричастный и составной) или его сочетание с другими частями речи (конструкция).

Алгоритмы, реализуемые в разрабатываемом программном стенде и информационные базы к нему могут найти практическое применение в перспективных системах автоматической обработки текстов на таджикском языке, в том числе в системе таджикско-русского машинного перевода [3].

В результате ранее проведенных предварительных эмпирических исследований была произведена автоматизированная фильтрация словарных баз ТЯ с привлечением экспертов, в результате было выделено 746 простыгх глаголов таджикского языка в форме инфинитива, из которых 398 - производные отыменные глаголы. Из 348 непроизводных глаголов за счет исключения префиксов выделено 214 основ прошедшего времени [2].

На основе полученного результата сформирована база данных простые глаголов, которые условно разбиты на пять групп, табл. 1:

1. неправильные глаголы основы прошедшего времени (ОПВ);

2. неправильные глаголы основы настоящего времени (ОНВ);

3. правильные глаголы основы настоящего времени;

4. глаголы, образованные от имени существительного путем добавления глагольных постфиксов;

5. модальные глаголы.

Таблица 1. Пример условной классификации глаголов

Неправильные глаголы ОПВ Неправильные глаголы ОНВ Правильные глаголы ОНВ Модальн ые глаголы

рафт рав бур боист

пухт паз сан; шоист

На основе схемы глагольных парадигм ТЯ [1] получен исчерпывающий перечень глагольных постфиксов (всего 102 постфикса) и сформирована информационная база данных, в которой все постфиксы разбиты на четыре группы:

1. не присоединяемые к глаголу (соединимость с глаголом которых не установлена);

2. присоединяемые к основе глагола настоящего времени;

3. присоединяемые к основе глагола прошедшего времени;

4. присоединяемые к обеим основам глагола.

Также сформирована база данных префиксов: простых 13, сложных 35, всего 48

[2].

Так как простые глаголы таджикского языка состоят из одной основы (корня), к которой прибавляются известные префиксы и постфиксы, то их выявление обеспечивается применением процедуры POS-tagging (частеречевого тэггера), которая разбивает произвольную словоформу ТЯ на корни и аффиксы и ставит ей в соответствие информацию о части речи, представленную данной словоформой.

В ранее проведенных исследованиях в отношении глагольных конструкций ТЯ сформулированы следующие ограничительные утверждения, положенные в основу алгоритма распознавания ГК ТЯ [1, 2]:

- в составе ГК могут быть словоформы, представляющие простые глаголы, причастия и деепричастия, имена существительные, прилагательные, местоимения и предлоги;

- длина ГК ограничена шестью словоформами;

- словоформы ГК не могут быть разделены знаками пунктуации;

- предлог в ГК ТЯ может быть только первой словоформой;

- последней словоформой ГК может быть только простой глагол.

Чтобы добиться эффективной работы алгоритма распознавания глаголов [2] и повысить производительность экспериментального программного стенда для исследования глагольных конструкций таджикского языка, необходимо минимизировать количество обращений POS-tagger к базам данных. Для этого применяется сегментация предложений входного текста за счет учета знаков препинания, имен собственных, аббревиатур, наречий, союзов и частиц (неизменяемых частей речи ТЯ), оформленных в виде короткого стоп-словаря.

Экспериментальный программный стенд разрабатывается с использованием среды разработки Embarcadero® Delphi® 2010, информационные базы созданы на основе СУБД SQLite. Основное окно программного стенда содержит главное меню, панели инструментов и текстовые поля, отображающие входную и выходную информацию. Пункты главного меню и панелей инструментов обеспечивают операции файлового ввода-вывода, актуализации используемых баз данных (простых глагольных корней, префиксов и постфиксов) и основного функционала программы, рис. 1. Также стенд содержит строку состояния, в котором отображается информация о количестве глаголов, префиксов, постфиксов, ходе выполнения обработки и времени обработки.

Работа с программой осуществляется путем набивки или загрузки из файла исходных текстов ТЯ в первое текстовое поле («Шаг 1. Текст для обработки»). Здесь же доступны операции редактирования текста и подсчета количества слов в выделенном участке текста. После выполнения предварительных операций по подготовке входного текста, посредством пункта меню «Обработка» стенд выводит во второе текстовое поле («Шаг 2. Сегментация предложения и анализ») результаты

сегментации входного текста с учетом стоп-словаря и формальных правил сегментации. Далее к каждому сегменту последовательно применяется алгоритм распознавания глаголов ТЯ и в третье текстовое поле («Шаг 3. Выделение глагольных конструкций») выводятся только те сегменты, которые содержат в своем составе простые глаголы ТЯ.

Глаголов: €14 Префиксов: 28 Постфиксов: 102 Кол-во слов: 6505 6:66,251 Время обработки: 0000:10

Рис. 1. Главное окно экспериментального программного стенда

Рис. 2. Окно для отображения полученной статистики

После отработки основных процедур обработки текста становится доступна подробная статистика, рис. 2, которую можно также импортировать в лист MS Excel.

Таблица 2. Описание корпуса таджикских текстов

Размер

Наименование Кол-во Кол-во

№ Жанр файла

произведения слов предложений

(Кб)

1. То;икон исторический 379782 43684 4872

2. Нигох,ебатаърих исторический 148401 8808 2060

3. То;икондар оинаитаърих аз Ориён то Сомониён исторический 104682 5328 1397

4. Куруши Кабир исторический 39679 3125 513

5. Китоби 15-солаги исторический 18989 2455 916

6. Шабисаввум художественный 102162 9357 1244

7. Садри Бухоро художественный 116468 7575 1483

8. Сорбон художественный 58821 6409 727

9. Хуросонаст ин ;о художественный 94235 4827 1188

10. Суханварони Балх художественный 61461 4024 770

11. Акутагава художественный 9594 493 114

12. 'уръон научный 139698 16013 1650

13. Кодексимаъмурии (Т нормативно-правовое 99558 4688 1411

14. Кодексиграждании (Т нормативно-правовой 57110 3517 806

15. Кодексимех,нати (Т нормативно-правовой 31832 1482 449

16. Конститутсияи (Т нормативно-правовой 6505 483 91

17. Назарияии+тисодй учебный 153005 9679 2169

18. Системаи Баланс учебный 56189 4114 806

19. Системаиидоракунй дар и+тисодиёт учебный 53388 3114 734

20. Асосх,ои маркетинг учебный 26127 1944 377

Итого 876128 57607 11629

Вспомогательное окно «Параметры» позволяет настроить опции работы программы, в частности, ведение журнала обработки (лог-файла), цветовую схему разметки текста (выделение цветом ГК и их элементов), форматы сохранения результатов и т.д.

Описываемый экспериментальный программный стенд находится в состоянии разработки, постоянно модернизируется и совершенствуется в соответствии с ходом

исследовательской работы, уточнения алгоритмов обработки текстов ТЯ и информационных баз.

Для обеспечения репрезентативной выборки исходного текстового материала для проведения исследований ГК ТЯ, был собран и описан специализированный корпус таджикских текстов, содержащий более 870 тыс. словоформ, в который вошли 20 произведений различных жанров, табл. 2. Тексты корпуса прошли предварительную обработку с целью удаления ошибок и приведения к однообразному виду, переведены в кодировку Юникод и сохранены в текстовом формате (*Лх1).

Текущие возможности экспериментального стенда позволяют выделять в тексте простые глаголы, причастия (деепричастия) и инфинитивы (отглагольные имена). В результате обработки представленного корпуса ТЯ с помощью программного стенда были получены следующие промежуточные статистические данные, табл. 3.

Таблица 3. Промежуточные статистические результаты обработки корпуса ТЯ

№ Произведение Глаголы Инфинитивы Причастия/ Деепричастия

1. То;икон 31268 2616 7520

2. Нигох,ебатаърих 15132 864 3874

3. То;икондар оинаитаърих. Аз Ориён то Сомониён 8445 938 2708

4. Куруши Кабир 4396 319 1202

5. Китоби 15-солаги 1418 210 327

6. Шабисаввум 12432 494 3664

7. Садри Бухоро 13108 759 2301

8. Сорбон 9072 470 2182

9. Хуросонаст ин ;о 10522 841 1449

10. Суханварони Балх 6870 338 924

11. Акутагава 1497 49 305

12. 'уръон 23996 386 1495

13. Кодексимаъмурии (Т 4253 3697 2040

14. Кодексиграждании (Т 4885 1265 1668

15. Кодексимех,нати (Т 2037 662 749

16. Конститутсияи (Т 557 69 83

17. Назарияии+тисодй 13033 1356 3807

18. Системаи Баланс 3344 652 1432

19. Системаиидоракунй дар и+тисодиёт 4198 701 1772

20. Асосх,ои маркетинг 2429 531 616

Итого 126492 13737 28724

В частности, установлено, что простые глаголы составляют около 9% всех словоформ входных текстов, отглагольные имена - 2%, причастия (деепричастия) -1%. Установлены частотные распределения встречаемости простых глаголов ТЯ для оптимизации информационных баз и сокращения временных затрат на работу основного алгоритма, рис. 3. Так, три глагола ТЯ («аст», «буд» и «мешавад») покрывают более 17,5% всех глаголов в исследованных текстах.

Предварительно полученные результаты дают возможность улучшить и модифицировать алгоритмы распознавания глагольных конструкций таджикского языка.

Глаголы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10000

9000

8000

7000

6000

5000

4000 3000 2000 1000

I Количество

Рис. 3. Встречаемость различных глаголов в таджикских текстах

Список литературы

1. Собиров Д.Д, Гращенко Л.А., Усманов З.Д. Информационные основы автоматического распознавания глаголов таджикского языка // Известия Академии наук РеспубликиТаджикистан. Отд. физ.-мат., хим., геол. и техн. наук.- 2011. - №3. -С. 41-46. '

2. Гращенко Л.А., Собиров Д.Д. Модели и алгоритм распознавания глаголов в предложениях таджикского языка // Доклады Академии наук Республики Таджикистан. - 2012. - том 55. - №2. - С. 120-125.

3. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. - 2011. - т. 54. - №4. - С. 279-285.

i Надоели баннеры? Вы всегда можете отключить рекламу.