Научная статья на тему 'Статистические свойства a b-кодирования слов естественных языков'

Статистические свойства a b-кодирования слов естественных языков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
132
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛОВО / КОДИРОВАНИЕ / ОБРАЗ / СТАТИСТИКА / WORD / CODING / IMAGE / STATISTICS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д., Нормантас В.

На корпусах текстов изучены статистические свойства ab-кодирования и его модификации. Установлены, в частности, мощности множеств анаграмм четырёх естественных языков и языка эсперанто.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistical properties of a b-coding of natural language words

Statistical properties of αβ -coding and its modification were studied using corpora of four natural languages and constructed language Esperanto. In particular, the power of anagram sets of those languages was defined.

Текст научной работы на тему «Статистические свойства a b-кодирования слов естественных языков»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2012, том 55, №8_

ИНФОРМАТИКА

УДК 004.912; 81'322.2; 811.111; 811.161.1; 811.17; 811.21./.22

Академик АН Республики Таджикистан З.Д.Усманов, В.Нормантас

СТАТИСТИЧЕСКИЕ СВОЙСТВА «^-КОДИРОВАНИЯ СЛОВ ЕСТЕСТВЕННЫХ ЯЗЫКОВ

Институт математики АН Республики Таджикистан

На корпусах текстов изучены статистические свойства а/З-кодирования и его модификации. Установлены, в частности, мощности множеств анаграмм четырёх естественных языков и языка эсперанто.

Ключевые слова: слово - кодирование - образ - статистика.

1. Пусть Ь - естественный язык с алфавитом А и Ж = "аа " - какое-либо слово

длины п, состоящее из букв аке А, к = 1, 2,..., п. Обозначим через СЖ = "аа2 •••аш " цепочку

из тех же букв, что и в слове Ж, но упорядоченных по алфавиту.

Следуя [1], отображение ¥: Ж ^ СЖ назовём а/ - кодированием слова Ж, а цепочку букв СЖ — его а/ - кодом. Для пояснения отметим, что а/ - кодом слова Ж = "горизонт " является цепочка СЖ = "гзиноорт".

Очевидно, что кодирующее отображение ¥: Ж ^ СЖ является однозначным, в то время

как декодирующее ¥ 1 : С Ж ^ Ж, вообще говоря, таковым не является. Нарушение однозначности происходит на образах анаграмм, то есть таких слов, которые состоят из одного и того же набора букв. Например, цепочке букв СЖ = "иикопрт" соответствует анаграмма из двух прообразов (тропики —киприот), а цепочке СЖ = "орст" - анаграмма даже из четырёх прообразов (рост —сорт —трос —торс).

Таким образом, исследование эффективности декодирующего отображения сводится к определению в естественных языках относительной частоты встречаемости анаграмм, точнее множества слов, входящих в состав анаграмм.

2. В табл. 1 приводятся результаты предварительных исследований декодирующего отображения ¥ 1 для английского, литовского, русского и таджикского языков и для искусственного языка эсперанто (столбец 1). Размеры (в словах) корпусов текстов, подвергнутых обработке, показаны в столбце 2.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, ул.Айни, 299/1, Институт математики. Е-таг: zafar-usmanov@rambler.ru

Таблица 1

Статистические свойства отображения ¥ : Ж ^ СЖ

1. 2. 3. 4. 5. 6. 7. 8.

Языки Размер Число раз- Число раз- Одно- Двусмысленные Отношение Отношение

корпуса личных личных значные коды (5)/(4) (6)/(4)

слов кодов коды в % в %

Английский 11252496 137732 119055 106841 12214 89.7 10.3

Литовский 34165084 693995 605039 546254 58785 90.3 9.7

Русский 19175074 509031 462886 430517 32369 93.0 7.0

Таджикский 2323965 87181 80080 74512 5568 93.0 7.0

Эсперанто 5080195 165570 147220 133851 13369 90.9 9.1

Обработка корпусной информации начиналась с формирования частотных словарей - списка различных слов с частотами их встречаемости. Из этих данных в столбец 3 извлечены только числа таких слов.

Далее списки слов из частотных словарей подвергались а,(5 - кодированию с тем, чтобы получить списки уникальных а(3 - кодов с частотами их встречаемости. Представленное в столбце 4 общее число уникальных кодов оказывается меньшим в сравнении с общим числом различных слов из столбца 3 по той вполне понятной причине, что нескольким словам, входящим в анаграмму, соответствует один и тот же а.р - код.

На следующем этапе список уникальных кодов разделялся на 2 части. В одну часть включались однозначно декодируемые коды, соответствующие словам, не входящим в множество анаграмм. Другая часть составлялась из кодов анаграмм, названных двусмысленными кодами, поскольку им соответствуют не менее двух прообразов. В столбцах 5 и 6 приведены количественные показатели этих частей, которые в столбцах 7 и 8 записаны в процентах по отношению к числу различных кодов столбца 4.

3. Из столбцов 5-6 и 7-8 табл. 1 видно, что для рассматриваемых языков количество однозначно декодируемых кодов на порядок больше, чем суммарное количество кодов анаграмм. Следует особо отметить, что речь идёт лишь о перечне слов из частотных словарей, причём без учёта частот их встречаемости. Полученный результат, отдавая приоритет однозначно декодируемым кодам, создаёт искажённую картину об обратном отображении ¥ 1.

Уточнённые свойства ¥ 1 выявляются в столбцах 3 и 5 табл. 2.

Таблица 2

Статистические свойства отображения ¥ : Ж ^ СЖ

1. 2. 3. 4. 5. 6. 7. 8.

Языки Размер Частоты Отношение Частоты Отношение Частоты слов Отношение

корпуса однозначных (3)/(2) двусмысленных (5) / (2) декодируемых (7)/(2)

кодов в % кодов в % г* по ¥ - схеме в %

Английский 11252496 4738825 42.1 6513671 57.9 10.961.792 97.4

Литовский 34165084 15637702 45.8 18527382 54.2 33.199.335 97.2

Русский 19175074 10413280 54.3 8761794 45.7 18.724.384 97.7

Таджикский 2323965 1152420 49.6 1171545 50.4 2.280.334 98.1

Эсперанто 5080195 1788681 35.2 3291514 64.8 4.782.380 94.1

Доклады Академии наук Республики Таджикистан

2012, том 55, №8

Действительно, в этих столбцах приводятся данные о суммарных частотах встречаемости однозначно декодируемых и двусмысленных кодов для соответствующих корпусов. Эти данные, пересчитанные в столбцах 4 и 6 в процентах, показывают, в общем-то, недостаточно приемлемый для практических целей уровень декодирования слов, реализуемый отображением Е 1.

4. В этой связи обратимся к модифицированному отображению Е, наделённому следующими свойствами [1]:

- так же, как и Е , оно определено на множестве [Ж } слов естественного языка Ь ;

- так же, как и Е , оно ставит в соответствие слову Ж его а/ -код, то есть Е(* : Ж ^ СЖ ;

- обратное отображение Е1 на множестве однозначно декодируемых кодов совпадает с Е 1, а на множестве двусмысленных кодов (образов анаграмм) каждому образу СЖ ставит в соответствие единственное слово Ж*, которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами из набора слов, рассматриваемой анаграммы.

Последнее свойство назовём Е- схемой декодирования. Очевидно, что принятие решений по этой схеме имеет вероятностный характер и предполагает возможность допущения ошибки в случаях, когда при правильном декодировании на выходе должно появиться слово не с максимальной частотой.

Практическое использование отображения Е (*) предполагает наличие развитой базы данных [ Ж^СЖ }, реализующей взаимно однозначное соответствие между элементами множеств [Ж } и [ СЖ } . Поскольку установление такого соответствия основывается на отмеченных свойствах функции Е, её априорную эффективность естественно определять суммарной частотой слов, а/ -коды

которых декодируются по Е- схеме. Соответствующие данные, приведенные в столбцах 7 и 8 табл. 2, указывают на высокий уровень такого декодирования.

Поступило 27.06.2012 г.

ЛИТЕРАТУРА 1. Усманов З.Д. - ДАН РТ, 2012, т.55, №7, с.545-548.

3.Ч,.Усмонов, В.Нормантас ХОСИЯТ^ОИ ОМОРИИ а//-КОДИРОНИИ КАЛИМА^ОИ ЗАБОЩОИ

ТАБИЙ

Институти математикаи Академияи илм^ои Цум^урии Тоцикистон

Дар мачмуъи матнх,о хосиятх,ои омории а/З - кодиронй ва такамилдодашудаи онх,о омухта шудааст. Аз он чумла тавоноии анаграммах,ои чор забони табий ва забони эсперанто мукарар карда шудааст.

Калима^ои калиди: калима - ба код даровардан - тасвир - статистика

Z.D.Usmanov, V.Normantas STATISTICAL PROPERTIES OF «^CODING OF NATURAL LANGUAGE

WORDS

Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan

Statistical properties of ayS-coding and its modification were studied using corpora of four natural languages and constructed language Esperanto. In particular, the power of anagram sets of those languages was defined.

Key words: word - coding - image - statistics.

i Надоели баннеры? Вы всегда можете отключить рекламу.