Научная статья на тему 'Модельный стоп-словарь таджикского языка'

Модельный стоп-словарь таджикского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
278
130
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬНЫЙ СТОП-СЛОВАРЬ / ТАДЖИКСКИЙ ЯЗЫК / ПАРАДИГМА СЛОВОИЗМЕНЕНИЯ / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / MODELING STOP-WORD LIST / TAJIK LANGUAGE / INFLECTION PARADIGM / AUTOMATIC TEXT PROCESSING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гращенко Л. А.

В статье на основе анализа частотного словаря корпуса таджикских текстов по критериям частотности, информативности и мощности парадигмы словоизменения приводится вариант модельного стоп-словаря для таджикского языка объёмом 179 словоформ. Суммарная частотность элементов стоп-словаря составляет около 22%.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Modeling stop-list for Tajik language

In article on the basis of the frequency, information content and capacity inflection paradigm analysis of the frequency dictionary of Tajik corpus, a possible model for the stopword list for Tajik language are introduced. Volume of vocabulary is 179 words and the total stop frequency of the dictionary elements is approximately 22%.

Текст научной работы на тему «Модельный стоп-словарь таджикского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2013, том 56, №5__________________________________

ИНФОРМАТИКА

УДК 681.4

Л.А.Гращенко

МОДЕЛЬНЫЙ СТОП-СЛОВАРЬ ТАДЖИКСКОГО ЯЗЫКА

Институт математики им. А.Джураева АН Республики Таджикистан

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 19.03.2013 г.)

В статье на основе анализа частотного словаря корпуса таджикских текстов по критериям частотности, информативности и мощности парадигмы словоизменения приводится вариант модельного стоп-словаря для таджикского языка объёмом 179 словоформ. Суммарная частотность элементов стоп-словаря составляет около 22%.

Ключевые слова: модельный стоп-словарь - таджикский язык - парадигма словоизменения - автоматическая обработка текста.

Развитие направления разработки систем автоматизированной обработки текстов (АОТ) для Центрально-Азиатского региона актуализирует методологические и практические вопросы формирования стоп-словарей, в том числе для таджикско-персидской языковой пары. Потребность в адекватном стоп-словаре следует из концептуальной модели русско-таджикской системы машинного перевода, содержащей подсистемы фильтрации входной лексики [1]. Ранее в работе [2] было введено понятие модельного стоп-словаря и рассмотрены вопросы методологии его формирования для естественных языков, в том числе для таджикского языка.

Вследствие общности языковой системы таджикского (ТЯ) и персидского (ПЯ) языков при различных системах письма уместно также учесть аналогичный опыт персидских исследователей. В табл. 1 обобщены данные об известных разработках стоп-словарей для персидского языка.

Таблица 1

Известные стоп-словари для персидского языка

Автор/источник Год Объём, слов Efi, %

http ://members.unine.ch/j acques.savoy/clef/index. html - 332 -

K.Taghva, R.Beckley, M.Sadeh [4] 2003 179 -

Z.Karimi, M.Shamsfard [6] 2006 824 -

L.Dolamic, C.Fautsch, J.Savoy [5] 2008 884 ~47%

M.R.Davarpanah, M.Sanji, M.Aramideh [3] 2009 922 ~39%

На веб-сайте [7] собраны стоп-словари для 19 языков мира. Размеры словарей варьируются от 99 до 1134 слов. В отличие от других языков, значительную часть стоп-словарей на ПЯ занимают предлоги, союзы, местоимения, вспомогательные глаголы, суффиксы и префиксы, пишущиеся отдельно от корня (основы слова) [5]. Высокую частоту имеют 12 глагольных основ, мощность парадигмы словоизменения которых приближается к 100 [4]. Также для таджикско-персидской языковой пары на этапе предобработки (графематического анализа) актуально включать в стоп-словарь проАдрес для корреспонденции: Гращенко Леонид Александрович. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected].

сторечные слова, которые нужно заменять литературными формами (например, просторечный глагол «мерй» заменять на «меравй»).

Для формирования в первом приближении варианта модельного стоп-словаря для ТЯ был использован частотный словарь корпуса таджикских текстов, полученный Г.М.Довудовым [8]. Для каждого элемента частотного словаря определялись следующие характеристики: информативность I -принадлежность к той или иной части речи ТЯ; частотность £ мощность парадигмы словоизменения М [2]. Для лексем с M > 1 рассчитывалась совокупная частотность X?! 1/1- С учётом вариативности частотности слов, помимо абсолютного значения частоты слова в корпусе текстов ТЯ, элементу словаря приписывался номер диапазона ранга слова (Я1 = [1..10], И2 = [11 .. 100], Я3 = [101 .. 1000], Я4 = [1001 .. 10000]).

Условием включения слова в модельный стоп-словарь была выбрана система следующих критериев:

- принадлежность служебным частям речи ТЯ (союзы, предлоги, личные местоимения, местоименные наречия, модальные глаголы, междометья, частицы, нумеративы, некоторые наречия);

- мощность парадигмы словоизменения M = 1, или

- М < 15 при ^=1П>Ю~\

Таким образом, модельный стоп-словарь был сформирован из 179 словоформ, упорядоченный в алфавитном порядке вариант которого приведён в табл. 2.

Таблица 2

Вариант модельного стоп-словаря таджикского языка

ТЯ ПЯ г, % Я Часть речи м Прим.

АГАР я 0.200 2 союз 1

АГАРНА -и ^1 < 0.01 4 союз 1

АГАРЧАНД < 0.01 4 союз 6

АГАРЧИ < 0.01 4 союз 1

АЁ < 0.01 4 междометье 1

АЗ і' 2.441 1 предлог 1

АЗБАСКИ < 0.01 4 союз 1

АЙ < 0.01 4 междометье 1

АЙЮХ,О < 0.01 4 междометье 1

АКНУН 0,044 3 наречие 1

АЛАЙХ.И < 0.01 4 предлог 1

АЛБАТТА аьіі 0.043 3 наречие 1

АЛЕИЁС ДЬіІІ < 0.01 4 междометье 1

алфирок < 0.01 4 междометье 1

АЛХДЗАР < 0.01 4 междометье 1

АЛЪАМОН < 0.01 4 междометье 1

АЛЪАТАШ и. \| < 0.01 4 междометье 1

АММО 1.1 0.099 2 союз 1

АНА 0.017 3 местоим. наречие 1

АСАФО ІІиіІ < 0.01 4 междометье 1

АХ,А Ы < 0.01 4 междометье 1

ТЯ ПЯ г, % Я Часть речи м Прим.

БА 3.357 1 предлог 1

БАЙ-БАЙ цНцН < 0.01 4 междометье 1

БАЙНИ Ой 0.078 3 союз 1

БАЛЕ < 0.01 4 междометье / частица 1

БАЛКИ 0.043 3 союз 1

БАР л 0.150 2 предлог / существительное 1

БАРИН ся^л 0.016 3 местоим. наречие 1

БАРОИ Лл 0.223 2 предлог 1

БАРОН С^л < 0.01 4 местоим. наречие 1

БАРХЕ < 0.01 4 местоим. наречие 1

БАХ-БАХ < 0.01 4 междометье 1

БАХМОН < 0.01 4 местоим. наречие 1

БАЪД 0.057 Е/ = 0.157 2/3 наречие 5

БАЪЗАН ііуіши 0.014 3 наречие 1

БАЪЗЕ 0.043 3 местоим. наречие 1

БЕ 0.061 3 предлог 1

БИГУЗОР < 0.01 4 частица 1

БИДУНИ < 0.01 4 предлог 1

БИЛЛОХ аІіЬ < 0.01 4 междометье 1

БИНОБАР < 0.01 4 союз 1

БИНОБАРИН й)' < 0.01 4 союз 1

БИСМАДОН < 0.01 4 местоим. нар 1

БО Ь 0.491 1 союз 1

БОРАК < 0.01 4 междометье 1

БОРАКАЛЛОХ < 0.01 4 междометье 1

БОЯД 0.171 2 глагол 1

ВА J 2.459 1 союз 1

ВАГАРНА < 0.01 4 союз 1

ВАИЛЛО < 0.01 4 союз 1

ВАЙ 0.082 3 местоимение 2

ВАЛЕ ІАЇ 0.133 2 союз 1

ВАЛЕК < 0.01 4 союз 1

ВАЛЕКИН 0^іЗ_5 < 0.01 4 союз 1

ВАЛЛОХ М J < 0.01 4 междометье 1

ВАХ (ВАХ-ВАХ) < 0.01 4 междометье 1

ВОВАЙЛО ад» < 0.01 4 междометье 1

ЕАЙР л£ 0.021 Е/ = 0.044 3 союз 2,3

гох-гох „\Zb\Z < 0.01 4 местоим. наречие 1

ГОХЕ < 0.01 4 наречие 1

ДАР -Я 1.218 1 предлог / существительное 1

ДАРДО < 0.01 4 междометье 1

ДАРЕЕО < 0.01 4 междометье 1

Ё ь 0.079 3 союз 1

ТЯ ПЯ Г, % Я Часть речи М Прим.

ИН й*' 1.271 1 местоимение 14 1,2,3

ИНАК <-5^1 < 0.01 4 местоим. наречие 1

ИНКИ 45о^1 < 0.01 4 местоим. наречие 1

ИНЧИ 4а1)1 •* - < 0.01 4 местоим. наречие 1

ИНЧУНИН 0.032 3 местоим. наречие 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ИНЧУНОН < 0.01 4 местоим. наречие 1

ИНЧО 1^Ь| < 0.01 4 местоим. наречие >14 1,2,3

ИНШОАЛЛОХ, < 0.01 4 междометье 1

ЗАБ 40 < 0.01 4 частица 1

ЗЕРО 0.092 2 союз 1

ЗИ 0.054 3 предлог 1

КАДОМ 0.040 3 местоимение 14 1,2,3

КАДОМИН < 0.01 4 местоимение 1

КАЙ < 0.01 4 вопрос. слово 3

КАНЙ < 0.01 4 частица 1

КАСЕ 0.056 3 местоимение 1

КИ л£. 2.000 1 союз 1

КЙ 0.031 3 местоимение 1

КИМ < 0.01 4 частица 1

КОШКИ а$^А<. < 0.01 4 союз 1

КУ £ < 0.01 4 местоим. наречие 1

КУНУН 0.044 3 наречие 2 4

КУЧО 0.024 3 местоимение 3 4, 6

КАТЙ < 0.01 4 предлог 1

ЛАББАЙ < 0.01 4 частица 1

ЛАВ < 0.01 4 союз 1

ЛЕКИН с& 0.037 3 союз 1

МА г < 0.01 4 частица 1

МАА й- < 0.01 4 предлог 1

МАН Су» 0.370 Е/ = 0.448 2/3 местоимение > 14 1,2,7

МААЗОЛИК < 0.01 4 союз 1

МАБОДО ЬЬ- < 0.01 4 союз/междометье 1

МАГАР < 0.01 4 частица + предлог 1

МАНА А_ьо < 0.01 4 частица 1

МАРХДБО < 0.01 4 междометье 1

МО 1л 0.376 Е/ = 0.423 2 местоимение 14 1,2

НА 0.092 2 частица 1

НАХОД < 0.01 4 частица 1

НИЗ .3^ 0.236 2 союз 1

НОГОХ, й\1\л < 0.01 4 наречие 1

ОББО Ь1 < 0.01 4 междометье 1

ОВА^ о_5^ < 0.01 4 междометье 1

ОЁ У 0.024 3 частица 1

ТЯ ПЯ л, % Я Часть речи м Прим.

ОН с* 0.728 Е/ = 0.852 1/2 местоимение 14 1,2

ОНКИ 4$Лі < 0.01 4 местоим. наречие >14 1,2

ОНХО 0.280 Е/ = 0.338 2 местоимение 14 1,2

ОНЧИ «г < 0.01 4 местоим. наречие 1

ОНЧУНИН и^' < 0.01 4 местоим. наречие 1

ОНЧУНОН < 0.01 4 местоим. наречие 1

ОНЧО М < 0.01 4 местоим. наречие 1

ОРЕ <зЛ < 0.01 4 частица 1

ОХ, < 0.01 4 междометье 1

ОХО Ы < 0.01 4 междометье 1

ПАС $> 0.097 3 наречие

ПАСИН < 0.01 4 местоим. наречие 1

ПАСОН < 0.01 4 местоим. наречие 1

ПЕШ сАн 0.112 Е/ = 0.144 2 сущ. в роли предлога 5

СИВО І^иІ < 0.01 4 предлог 1

СУБХОНАЛЛОХ < 0.01 4 междометье 1

ТА < 0.01 4 нумератив 1

ТАСАННО < 0.01 4 междометье 1

ТО 12 0.307 2 предлог /союз / нумератив 1

ТУ л 0.136 Е/ = 0.166 2 местоимение 14 1,2

УФ < 0.01 4 междометье 1

У 0.112 Е/ = 0.207 2 местоимение 2

УЙ < 0.01 4 междометье 1

УХ < 0.01 4 междометье 1

УХХУ < 0.01 4 междометье 1

ХЕЛЕ 0.115 2 наречие 1

ХУШО < 0.01 4 междометье 1

ХУШ <_£>»■ < 0.01 4 частица 1

ХАББАЗО ІЛіа. < 0.01 4 междометье 1

ХАЙ < 0.01 4 междометье / глагол 1

ХАЙ-ХАЙ <с < 0.01 4 междометье 1

ХАЙХОТ < 0.01 4 междометье 1

ХАМ Г* 0.366 2 местоимение 2 6

ХАМА Ч-йА 0.161 2 местоимение 4 4

ХАМИН С)±АА 0.093 2 местоимение 3 1,2

ХАМОН 0.036 3 местоимение 3 1,2

ХАМЧУН 0.051 3 местоимение 1

ХАМЧУНИН 0.056 3 союз 1

ХАМЧУНОН С)Щ~яь < 0.01 4 союз 1

ХАР > 0.295 2 местоимение 1

ХАРЧАНД 0.026 3 союз 1

ТЯ ПЯ Г, % Я Часть речи м Прим.

ХАТТО ^ 0.045 3 союз / частица 1

ХЕЧ 0.051 3 местоимение 1

ХО и < 0.01 4 междометье 1

ХОЙ < 0.01 4 междометье 1

ХОЗИР 0.016 3 наречие 1

ХОЛО 0.069 3 наречие 1

ХОН й'_Й- < 0.01 4 междометье / глагол 1

ХОШАЛИЛЛОХ лили < 0.01 4 междометье 1

ХОШО < 0.01 4 междометье 1

ЧАНД «в 0.080 Е/ = 0.095 3 местоим. наречие 6

ЧАНДИН 0.014 3 местоим. наречие 1

ЧИ < 0.042 3 союз 1

ЧИВАКТ < 0.01 4 наречие 1

ЧЙ 0.190 2 частица / местоимение 1

ЧУН О^ 0.122 2 союз 1

ЧУНИН й^ 0.167 2 местоимение 2 6

ЧУНОН 0.014 Е/ = 0.030 3 местоимение 2 6

ЧУНОНКИ 4^311^ «г < 0.01 4 местоим. наречие 1

ЧУНКИ 0.019 3 союз 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЧУДО 0.038 3 местоим. наречие 1,5

ЧУЗ < 0.01 4 местоим. наречие 1

ШОЯД 0.033 3 модальный глагол 1

ШУМО Ь&иа 0.136 Е/ = 0.161 2/3 местоимение > 14 1,2

Э < 0.01 4 междометье 1

ЭЙ 0.046 3 междометье 1

ЭХ -Ы < 0.01 4 междометье 1

ЭХА < 0.01 4 междометье 1

ЭШОН иЬ| 0.017 3 местоимение 2

ЯГОН 0.059 3 местоим. наречие > 14 1,2

ЯКЕ Л 0.113 2 наречие 1,2

ЯЪНЕ С5^ 0.071 3 союз 1

Примечания: 1. могут принимать местоименные энклитики (-ам, -ат, -аш, -амон, -атон, -ашон); 2. могут принимать послелог -ро; 3. могут принимать постфиксы множественного числа (-он и/или -до); 4. могут принимать постфикс -й (-гй); 5. могут принимать изафетное окончание -и; 6. могут принимать показатель единичности -е; 7. могут принимать постфикс -у (-ю).

Суммарная частотность элементов полученного словаря составляет около 22%, частотных словоформ - 75 (с / > 10-4), неизменяемых словоформ - 147 (М = 1). Частеречевой состав словаря: 2 модальных глагола, 14 частиц, 14 предлогов, 36 союзов, 49 междометий, 68 местоимений и местоименных наречий. Заимствованиями из арабского языка являются 65 слов (36%).

С учетом используемых критериев формирования модельного стоп-словаря он ориентирован на применение в системах АОТ на морфологическом уровне и для сегментации текстов ТЯ. Слова с M > 3 имеет смысл включать в стоп-лист после морфологического анализатора, а формы с высокой частотой и M > 3 - и в стоп-словарь, и в основной словарь.

Словарь требует верификации на других корпусах текстов ТЯ, что планируется по мере создания национального корпуса текстов ТЯ. Развитием данного модельного стоп-словаря может быть включение в его состав некоторых частых прилагательных и существительных.

Поступило 21.03.2013 г.

ЛИТЕРАТУРА

1. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. Концептуальная модель системы русско-таджикского машинного перевода II Доклады Академии наук Республики Таджикистан, 2011, т. 54, №4, с. 279-2S5.

2. Гращенко Л.А. О модельном стоп-словаре II Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2013, №1(150), с. 40-4б.

3. Davarpanah M.R., Sanji M., Aramideh M. Farsi lexical analysis and stop word list II Library Hi Tech, 2009, v. 27, № 3, pp. 435-449.

4. Kazem Taghva, Russell Beckley, Mohammad Sadeh. A List of Farsi Stopwords. Technical Report 200301, Information Science Research Institute, University of Nevada, Las Vegas, 2003, 3 p.

5. Dolamic L., Fautsch C., Savoy J. UniNE at CLEF 200S: TEL, Persian and Robust IR II CLEF 200S Proceedings, 200S, pp.17S-1S5.

6. Karimi Z., Shamsfard M. Persian Text Automatic Summarization System II International Journal of Computational Intelligance, 2006, №4, pp. 126-133.

7. IR Multilingual Resouse ar UniNE [Электронный ресурс]:

http:IImembers.unine.chIj acques.savoyIclefIindex.html.

S. Dovudov G., Suchomel V., Smerk P.. POS Annotated 50M Corpus of Tajik Language. - In Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages, Istanbul, Turkey, 2012, pp. 93-9S.

Л.А.Грашенко

МОДЕЛИ ВОЖАТОЙ ИСТОДА БАРОЙ ЗАБОНИ ТОЧДКЙ

Институти математикаи ба номи А.Цураеви Академияи илм^ои Цумхурии Тоцикистон

Дар макола дар асоси омузиши калимадои такроршавандаи корпуси матндои точикй аз чихати такрорёбй, иттилоотнокй ва иктидори табдилёбии калимадо варианти мудали комуси вожадои истода барои забони точикй дар дачми 179 калима оварда шудааст. Такрорёбии элементдои комуси вожадои истода дар мачмуъ то 22%-ро ташкил медидад.

Калимадои калиди: модели вожадои истода - забони тоцикй - калимадои тагъйиротй - коркарди автоматикии матн.

L.A.Graschenko MODELING STOP-LIST FOR TAJIK LANGUAGE

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan

In article on the basis of the frequency, information content and capacity inflection paradigm analysis of the frequency dictionary of Tajik corpus, a possible model for the stopword list for Tajik language are introduced. Volume of vocabulary is 179 words and the total stop frequency of the dictionary elements is approximately 22%.

Key words: modeling stop-word list - Tajik language - inflection paradigm - automatic text processing.

i Надоели баннеры? Вы всегда можете отключить рекламу.