Научная статья на тему 'Частотный словарь якутского языка по материалам газетного корпуса'

Частотный словарь якутского языка по материалам газетного корпуса Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
116
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧАСТОТНЫЙ СЛОВАРЬ / МАШИННЫЙ КОРПУС / ГАЗЕТНЫЙ КОРПУС / ЯКУТСКИЙ ЯЗЫК

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Леонтьев Н.А.

В данной статье рассматривается частотный словарь по материалам языкового корпуса газет на якутском языке. Выведены таблицы частот употребления якутских слов в тексте газетных статей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Частотный словарь якутского языка по материалам газетного корпуса»

частотный словарь якутского языка

ПО МАТЕРИАЛАМ ГАЗЕТНОГО КОРПУСА

© Леонтьев Н.А.*

Северо-Восточный федеральный университет им. М.К. Аммосова,

г. Якутск

В данной статье рассматривается частотный словарь по материалам языкового корпуса газет на якутском языке. Выведены таблицы частот употребления якутских слов в тексте газетных статей.

Ключевые слова частотный словарь, машинный корпус, газетный корпус, якутский язык.

Частотный словарь русского языка Засориной [1] является примером для составителей частотного словаря, в нем показаны принципы составления частотных словарей. Современные частотные словари основываются на машинных корпусах языков, что дает большой объем данных. Для Национального корпуса русского языка приведено следующее описание: «Словарь включает наиболее употребительные слова современного русского языка (2-я половина XX - начало XXI вв.), снабженные информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреблений» [2].

Работы с машинным корпусом для якутского языка ведутся, но эта работа сопряжена с большими трудностями по сканированию письменных источников. «Для изучения языкового сознания на основе материалов свободных ассоциативных экспериментов, создается тезаурус, позволяющий исследовать системность языкового сознания. Для выявления ядра языкового сознания якутов разрабатывают частотный словарь на основе сбалансированного электронного корпуса» [3].

Для задач автоматизированного анализа текстов и создания систем автоматизированной обработки текстов на якутском языке был создан газетный корпус якутского языка [4, 5] по материалам Интернет-сайтов газет Республики Саха (Якутия). Кодировка базы данных в стандарте Unicode UTF-8, в котором имеется поддержка национальных букв якутского алфавита.

Для определения языка текстовых сообщений использовались программные скрипты [6, 7], написанные на языке программирования PHP.

Параметры газетного корпуса якутского языка: количество текстов более 3 тысяч, количество слов 1 млн. 21 тыс., идет постепенно наращивание количества текстов и объема слов. База данных, в котором храниться газет-

Доцент кафедры Радиотехники и информационных технологий, кандидат технических наук.

58

ЯЗЫК И КУЛЬТУРА

ный корпус, создана с помощью системы управления базами данных MySQL. Для доступа к базе данных был создан веб-интерфейс для работы с газетным корпусом.

Таблица 1

Наиболее часто употребляемые слова

Слово Частота слова % Слово Частота слова %

да 10496 1.0415 % бары 1697 0.1684 %

уонна 9274 0.9202 % маннык 1643 0.1630 %

диэн 9092 0.9022 % сирин 1623 0.1610 %

ол 8283 0.8219 % олус 1583 0.1571 %

бу 8019 0.7957 % диэри 1547 0.1535 %

суох 5103 0.5063 % ессе 1531 0.1519 %

эрэ 4973 0.4934 % эрээри 1527 0.1515 %

курдук 4960 0.4922 % сылдьар 1499 0.1487 %

ки1ш 4620 0.4584 % туран 1499 0.1487 %

биир 4480 0.4445 % онно 1466 0.1455 %

саха 4416 0.4382 % манна 1465 0.1454 %

дьон 3527 0.3500 % барыта 1442 0.1431 %

баар 3141 0.3117 % олорор 1437 0.1426 %

биhиги 3112 0.3088 % республика 1437 0.1426 %

баран 3045 0.3021 % хас 1421 0.1410 %

онон 3012 0.2989 % даманы 1384 0.1373 %

эмиэ 2991 0.2968 % буолуо 1348 0.1338 %

туЬунан 2900 0.2878 % дии 1348 0.1338 %

улахан 2721 0.2700 % наада 1310 0.1300 %

оттон 2545 0.2525 % онтон 1298 0.1288 %

сеп 2511 0.2492 % бьЛыытынан 1297 0.1287 %

кытта 2508 0.2489 % сиригэр 1297 0.1287 %

билигин 2446 0.2427 % дойду 1285 0.1275 %

турар 2422 0.2403 % дуо 1270 0.1260 %

ити 2382 0.2364 % солк 1264 0.1254 %

туох 2329 0.2311 % араас 1248 0.1238 %

буолан 2321 0.2303 % теhе 1206 0.1197 %

ону 2296 0.2278 % буолла 1203 0.1194 %

этэ 2290 0.2272 % ким 1158 0.1149 %

мин 2196 0.2179 % кунугэр 1144 0.1135 %

эбит 2195 0.2178 % Россия 1141 0.1132 %

элбэх 2092 0.2076 % аан 1111 0.1102 %

сана 2065 0.2049 % куорат 1110 0.1101 %

кини 2036 0.2020 % дуу 1104 0.1095 %

сыл 2028 0.2012 % сир 1100 0.1091 %

икки 1945 0.1930 % бастакы 1097 0.1088 %

тыа 1935 0.1920 % сурун 1088 0.1080 %

иhин 1808 0.1794 % ™h 1087 0.1079 %

о^о 1780 0.1766 % улэлиир 1087 0.1079 %

атын 1741 0.1728 % то^о 1082 0.1074 %

улэ 1737 0.1724 % холобур 1076 0.1068 %

буолар 1708 0.1695 % кытары 1066 0.1058 %

хайдах 1702 0.1689 % олохтоох 1064 0.1056 %

Проблемы изучения и сохранения языков и культур народов мира

59

Для анализа частотной структуры слов была сделана выборка из 115 тыс. слов. Частотный словарь содержит следующие данные: словоформу и частоту употребления в газетном корпусе.

В тюркских языках словоформы создаются присоединением суффиксов, что увеличивает возможное количество словоформ, по сравнении с русским языком.

В результате обработки газетного корпуса якутского языка, был получен частотный словарь якутского языка общим объемом 110 тыс. слов, так как в газетном корпусе встречаются слова на русском языке и слова на иностранных языках.

По результатам анализа видно, что служебные части речи являются наиболее часто встречаемыми словами. Служебные части речи являются наиболее частыми и в русском языке, согласно источнику [1]. Потом чаще встречается существительные слова «Kuhu» (человек), «дьон» (люди), «тыа» (сельский или лес), «о§о» (детский), а также числительные «биир» (один), «икки» (два), а также слова «республика», «Россия» - что объясняется новостным характером текстов.

Из-за особенностей якутского языка объем газетного корпуса должен быть увеличен в несколько раз, так например «Письменный корпус современного татарского языка» содержит более 45 млн. слов, число разных словоформ близок к 400 тыс. [8].

Развитие корпуса якутского языка позволить создать новые словари для разных применений, а также развивать методы автоматической корректировки текста, методы автоматического определения языка.

Список литературы:

1. Засорина Л.Н. Частотный словарь русского языка. - Изд. Русский язык, 1977. - 936 с.

2. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). - М.: Азбуковник, 2009.

3. Заморщикова Л.С. Ассоциативный тезаурус якутского языка // Гуманитарные научные исследования. - 2014. - № 2 (30). - С. 30.

4. Леонтьев Н.А. Национальный корпус якутского языка - технический подход // Труды конференции TEL-2014. - Казань. - С. 122-124.

5. Леонтьев Н.А. Национальный корпус Интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. Инфинити. -2014. - № 4. - С. 35-36.

6. Леонтьев Н.А. Словарное определение якутского языка в текстовом сообщении // Научная перспектива. - 2014. - № 2 (48). - С. 97-98.

60

ЯЗЫК И КУЛЬТУРА

7. Леонтьев Н.А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. - М: Спутник+, 2014. -XIV. - С. 88-91.

8. Письменный корпус современного татарского языка [Электронный ресурс]. - Режим доступа: http://corpus.tatfolk.ru/index.php?page=desc.htm? random (дата обращения: 31.05.2014).

i Надоели баннеры? Вы всегда можете отключить рекламу.