Программный стенд для исследования глагольных конструкций
таджикского языка
Д.Д.Собиров
Таджикский национальный университет jamshed_corp @ mail. ru
Аннотация. В статье дается описание разработанных программного стенда и информационных баз данных для исследования глагольный конструкций на основе алгоритма распознавания глаголов таджикского языка.
Ключевые слова: таджикский язык, глагольная конструкция, группа сказуемого, алгоритм, морфологический анализ, программный стенд.
В рамках проводимого исследования глагольных конструкций (ГК) таджикского языка (ТЯ) [1], очередным этапом является разработка проблемно-ориентированного программного стенда на основе алгоритма распознавания таджикских глаголов [2]. Под глагольной конструкцией понимается семантически целостная (неделимая) последовательность словоформ, представляющая в предложении сказуемое - глагол
(и и и
простой, сложно-именной, сложно-деепричастный и составной) или его сочетание с другими частями речи (конструкция).
Алгоритмы, реализуемые в разрабатываемом программном стенде и информационные базы к нему могут найти практическое применение в перспективных системах автоматической обработки текстов на таджикском языке, в том числе в системе таджикско-русского машинного перевода [3].
В результате ранее проведенных предварительных эмпирических исследований была произведена автоматизированная фильтрация словарных баз ТЯ с привлечением экспертов, в результате было выделено 746 простыгх глаголов таджикского языка в форме инфинитива, из которых 398 - производные отыменные глаголы. Из 348 непроизводных глаголов за счет исключения префиксов выделено 214 основ прошедшего времени [2].
На основе полученного результата сформирована база данных простые глаголов, которые условно разбиты на пять групп, табл. 1:
1. неправильные глаголы основы прошедшего времени (ОПВ);
2. неправильные глаголы основы настоящего времени (ОНВ);
3. правильные глаголы основы настоящего времени;
4. глаголы, образованные от имени существительного путем добавления глагольных постфиксов;
5. модальные глаголы.
Таблица 1. Пример условной классификации глаголов
Неправильные глаголы ОПВ Неправильные глаголы ОНВ Правильные глаголы ОНВ Модальн ые глаголы
рафт рав бур боист
пухт паз сан; шоист
На основе схемы глагольных парадигм ТЯ [1] получен исчерпывающий перечень глагольных постфиксов (всего 102 постфикса) и сформирована информационная база данных, в которой все постфиксы разбиты на четыре группы:
1. не присоединяемые к глаголу (соединимость с глаголом которых не установлена);
2. присоединяемые к основе глагола настоящего времени;
3. присоединяемые к основе глагола прошедшего времени;
4. присоединяемые к обеим основам глагола.
Также сформирована база данных префиксов: простых 13, сложных 35, всего 48
[2].
Так как простые глаголы таджикского языка состоят из одной основы (корня), к которой прибавляются известные префиксы и постфиксы, то их выявление обеспечивается применением процедуры POS-tagging (частеречевого тэггера), которая разбивает произвольную словоформу ТЯ на корни и аффиксы и ставит ей в соответствие информацию о части речи, представленную данной словоформой.
В ранее проведенных исследованиях в отношении глагольных конструкций ТЯ сформулированы следующие ограничительные утверждения, положенные в основу алгоритма распознавания ГК ТЯ [1, 2]:
- в составе ГК могут быть словоформы, представляющие простые глаголы, причастия и деепричастия, имена существительные, прилагательные, местоимения и предлоги;
- длина ГК ограничена шестью словоформами;
- словоформы ГК не могут быть разделены знаками пунктуации;
- предлог в ГК ТЯ может быть только первой словоформой;
- последней словоформой ГК может быть только простой глагол.
Чтобы добиться эффективной работы алгоритма распознавания глаголов [2] и повысить производительность экспериментального программного стенда для исследования глагольных конструкций таджикского языка, необходимо минимизировать количество обращений POS-tagger к базам данных. Для этого применяется сегментация предложений входного текста за счет учета знаков препинания, имен собственных, аббревиатур, наречий, союзов и частиц (неизменяемых частей речи ТЯ), оформленных в виде короткого стоп-словаря.
Экспериментальный программный стенд разрабатывается с использованием среды разработки Embarcadero® Delphi® 2010, информационные базы созданы на основе СУБД SQLite. Основное окно программного стенда содержит главное меню, панели инструментов и текстовые поля, отображающие входную и выходную информацию. Пункты главного меню и панелей инструментов обеспечивают операции файлового ввода-вывода, актуализации используемых баз данных (простых глагольных корней, префиксов и постфиксов) и основного функционала программы, рис. 1. Также стенд содержит строку состояния, в котором отображается информация о количестве глаголов, префиксов, постфиксов, ходе выполнения обработки и времени обработки.
Работа с программой осуществляется путем набивки или загрузки из файла исходных текстов ТЯ в первое текстовое поле («Шаг 1. Текст для обработки»). Здесь же доступны операции редактирования текста и подсчета количества слов в выделенном участке текста. После выполнения предварительных операций по подготовке входного текста, посредством пункта меню «Обработка» стенд выводит во второе текстовое поле («Шаг 2. Сегментация предложения и анализ») результаты
сегментации входного текста с учетом стоп-словаря и формальных правил сегментации. Далее к каждому сегменту последовательно применяется алгоритм распознавания глаголов ТЯ и в третье текстовое поле («Шаг 3. Выделение глагольных конструкций») выводятся только те сегменты, которые содержат в своем составе простые глаголы ТЯ.
Глаголов: €14 Префиксов: 28 Постфиксов: 102 Кол-во слов: 6505 6:66,251 Время обработки: 0000:10
Рис. 1. Главное окно экспериментального программного стенда
Рис. 2. Окно для отображения полученной статистики
После отработки основных процедур обработки текста становится доступна подробная статистика, рис. 2, которую можно также импортировать в лист MS Excel.
Таблица 2. Описание корпуса таджикских текстов
Размер
Наименование Кол-во Кол-во
№ Жанр файла
произведения слов предложений
(Кб)
1. То;икон исторический 379782 43684 4872
2. Нигох,ебатаърих исторический 148401 8808 2060
3. То;икондар оинаитаърих аз Ориён то Сомониён исторический 104682 5328 1397
4. Куруши Кабир исторический 39679 3125 513
5. Китоби 15-солаги исторический 18989 2455 916
6. Шабисаввум художественный 102162 9357 1244
7. Садри Бухоро художественный 116468 7575 1483
8. Сорбон художественный 58821 6409 727
9. Хуросонаст ин ;о художественный 94235 4827 1188
10. Суханварони Балх художественный 61461 4024 770
11. Акутагава художественный 9594 493 114
12. 'уръон научный 139698 16013 1650
13. Кодексимаъмурии (Т нормативно-правовое 99558 4688 1411
14. Кодексиграждании (Т нормативно-правовой 57110 3517 806
15. Кодексимех,нати (Т нормативно-правовой 31832 1482 449
16. Конститутсияи (Т нормативно-правовой 6505 483 91
17. Назарияии+тисодй учебный 153005 9679 2169
18. Системаи Баланс учебный 56189 4114 806
19. Системаиидоракунй дар и+тисодиёт учебный 53388 3114 734
20. Асосх,ои маркетинг учебный 26127 1944 377
Итого 876128 57607 11629
Вспомогательное окно «Параметры» позволяет настроить опции работы программы, в частности, ведение журнала обработки (лог-файла), цветовую схему разметки текста (выделение цветом ГК и их элементов), форматы сохранения результатов и т.д.
Описываемый экспериментальный программный стенд находится в состоянии разработки, постоянно модернизируется и совершенствуется в соответствии с ходом
исследовательской работы, уточнения алгоритмов обработки текстов ТЯ и информационных баз.
Для обеспечения репрезентативной выборки исходного текстового материала для проведения исследований ГК ТЯ, был собран и описан специализированный корпус таджикских текстов, содержащий более 870 тыс. словоформ, в который вошли 20 произведений различных жанров, табл. 2. Тексты корпуса прошли предварительную обработку с целью удаления ошибок и приведения к однообразному виду, переведены в кодировку Юникод и сохранены в текстовом формате (*Лх1).
Текущие возможности экспериментального стенда позволяют выделять в тексте простые глаголы, причастия (деепричастия) и инфинитивы (отглагольные имена). В результате обработки представленного корпуса ТЯ с помощью программного стенда были получены следующие промежуточные статистические данные, табл. 3.
Таблица 3. Промежуточные статистические результаты обработки корпуса ТЯ
№ Произведение Глаголы Инфинитивы Причастия/ Деепричастия
1. То;икон 31268 2616 7520
2. Нигох,ебатаърих 15132 864 3874
3. То;икондар оинаитаърих. Аз Ориён то Сомониён 8445 938 2708
4. Куруши Кабир 4396 319 1202
5. Китоби 15-солаги 1418 210 327
6. Шабисаввум 12432 494 3664
7. Садри Бухоро 13108 759 2301
8. Сорбон 9072 470 2182
9. Хуросонаст ин ;о 10522 841 1449
10. Суханварони Балх 6870 338 924
11. Акутагава 1497 49 305
12. 'уръон 23996 386 1495
13. Кодексимаъмурии (Т 4253 3697 2040
14. Кодексиграждании (Т 4885 1265 1668
15. Кодексимех,нати (Т 2037 662 749
16. Конститутсияи (Т 557 69 83
17. Назарияии+тисодй 13033 1356 3807
18. Системаи Баланс 3344 652 1432
19. Системаиидоракунй дар и+тисодиёт 4198 701 1772
20. Асосх,ои маркетинг 2429 531 616
Итого 126492 13737 28724
В частности, установлено, что простые глаголы составляют около 9% всех словоформ входных текстов, отглагольные имена - 2%, причастия (деепричастия) -1%. Установлены частотные распределения встречаемости простых глаголов ТЯ для оптимизации информационных баз и сокращения временных затрат на работу основного алгоритма, рис. 3. Так, три глагола ТЯ («аст», «буд» и «мешавад») покрывают более 17,5% всех глаголов в исследованных текстах.
Предварительно полученные результаты дают возможность улучшить и модифицировать алгоритмы распознавания глагольных конструкций таджикского языка.
Глаголы
10000
9000
8000
7000
6000
5000
4000 3000 2000 1000
I Количество
Рис. 3. Встречаемость различных глаголов в таджикских текстах
Список литературы
1. Собиров Д.Д, Гращенко Л.А., Усманов З.Д. Информационные основы автоматического распознавания глаголов таджикского языка // Известия Академии наук РеспубликиТаджикистан. Отд. физ.-мат., хим., геол. и техн. наук.- 2011. - №3. -С. 41-46. '
2. Гращенко Л.А., Собиров Д.Д. Модели и алгоритм распознавания глаголов в предложениях таджикского языка // Доклады Академии наук Республики Таджикистан. - 2012. - том 55. - №2. - С. 120-125.
3. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. - 2011. - т. 54. - №4. - С. 279-285.