Научная статья на тему 'О множестве анаграмм и распознавании их элементов'

О множестве анаграмм и распознавании их элементов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
625
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛОВО КОДИРОВАНИЕ – АНАГРАММА – РАСПОЗНАВАНИЕ ДЕКОДИРОВАНИЕ – СТАТИСТИКА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д., Нормантас В.

Рассмотрены три способа кодирования слов. Выявлены их статистические закономерности и установлены мощности множеств анаграмм в текстовых корпусах английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто. Предложены три модифицированных способа кодирования, реализующие с близкими к единице относительными частотами взаимно однозначные отображения между словами и их кодами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О множестве анаграмм и распознавании их элементов»

множестве анаграмм и распознавании их элементов

З.Д.Усманов, В.Нормантас Институт математики АН Республики Таджикистан E-mail: zafar-usmanov @ rambler. ru

Аннотация: Рассмотрены три способа кодирования слов. Выявлены их статистические закономерности и установлены мощности множеств анаграмм в текстовых корпусах английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто. Предложены три модифицированных способа кодирования, реализующие с близкими к единице относительными частотами взаимно однозначные отображения между словами и их кодами.

Ключевые слова: слово - кодирование - анаграмма - распознавание -декодирование - статистика

Пусть L - какой-либо естественный язык с алфавитом A и W = "а1а2 ...ап" -некоторое его слово длины n, состоящее из букв ak е A, k = 1, n. Введём в рассмотрение цепочку CW = "as1as2 ...asn", составленную из тех же самых букв, что и

в W , но упорядоченных по алфавиту.

1. Как ив [1], рассмотрим следующий тип кодирования (отображения) слова W.

Определение 1. Отображение F: W ^ CW назовём упорядоченным алфавитным кодированием (aft- кодированием) слова W, а цепочку букв CW - его ав - кодом..

ПРИМЕР: F : W = сорт ^ CW = орст.

Отображение F каждому слову W ставит в соответствие единственный образ CW, в то время как обратное отображение (декодирование) является, вообще говоря, не однозначным. Действительно, для цепочки CW = орст прообразом является множество из четырех слов {W: W = рост, сорт, трос, торс}.

В настоящей работе конечное множество слов, составленных из одного и того же набора букв, будем называть анаграммой, а сами слова - элементами анаграмм1.

Всякой анаграмме соответствует единственный образ, ав - код. В свою очередь,

для обратного отображения F- : CW ^ W образу всякой анаграммы сопоставляется не менее двух прообразов на множестве {W}, то есть декодирование образов анаграмм не однозначно.

Для того чтобы получить представление об "эффективности" ав - кодирования, выражающейся в способности распознавания прообразов ав- кодов, необходимо, как это сформулировано в [1], оценить мощность множества анаграмм в естественных языках. В работе [2] эта задача рассмотрена на примере английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто. На основе обработки данных текстовых корпусов установлено, что относительные частоты встречаемости элементов анаграмм для отмеченных языков группируются вокруг

1 Предложенное определение отличается от общепринятых. Так в большом энциклопедическом словаре под анаграммой понимается слово или словосочетание, образованное перестановкой букв другого слова или словосочетания, а в толковом словаре русского языка Д.Н.Ушакова анаграмма - это перестановка букв, посредством которой из одного слова составляется другое.

значения 0.5. Иначе говоря, почти каждое второе слово из корпуса текстов принадлежит множеству анаграмм. И несмотря на то, что ав - кодирование текстовых корпусов оказывается крайне удобным средством для выявления всевозможныгх элементов анаграмм, оно представляется неэффективным для декодирования.

2. В связи с этим рассмотрим две модификации ¥, обозначаемые через ¥(/) и ¥(/, 1), [1]. Также, как и ¥ , они задаются на множестве {Ж} слов естественного языка L. Отображение ¥(/) наделяется следующими свойствами.

Определение 2. Отображение ¥(/) слову Ж ставит в соответствие цепочку а1С (Ж /а1), в которой а1 - первая буква в слове Ж и С (Ж/а1) - ав- код цепочки Ж а, т.е. слова Ж без первой буквы.

Это отображение, в отличие от ¥, оставляет в слове Ж неизменной первую букву, т.е. а1, и упорядочивает по алфавиту прочие буквы. Из общих соображений ясно, что декодирование а1С(Ж /а1) ^ Ж в определенном смысле обладает лучшими свойствами, чем СЖ ^ Ж.

Ещё один модифицированный способ кодирования представляется следующим образом.

Определение 3. ¥(/л : Ж ^ а1С(Ж/{а1,ап })ап.

В нём а1 - первая и ап - последняя буквы слова Ж остаются неподвижными, а цепочка букв между ними, т.е. Ж /{а1, ап}, подвергается ав - кодированию.

ПРИМЕР. Обратимся к анаграмме {Ж: Ж = автор, втора, отвар, рвота, тавро, товар}. Отображение ¥(/)первые четыре элемента кодирует следующим образом - аворт, ваорт, оаврт, равот, оставляя неизменными первые буквы элементов анаграммы (отмечены жирным цветом) и располагая в алфавитном порядке прочие буквы. Этим кодам однозначно соответствуют первые четыре элемента анаграммы. Пятый и шестой элементы анаграммы кодируются одинаково - тавро.

Теперь рассмотрим применение отображение ¥(/, 1) к той же анаграмме. В этом случае первая и последняя буквы (далее показаны жирными буквами) элементов анаграмм должны оставаться неизменными, а все другие буквы упорядочиваются по алфавиту. Результаты кодирования записываются в виде: авотр, ворта, оавтр, рвота, тавро, тавор, то есть все шесть слов рассматриваемой анаграммы получили собственные коды. Декодирование с помощью обратной функции также однозначно.

Итак, в сравнении с ¥ отображения ¥(/) и ¥(/, 1) несколько сложнее, зато наверняка успешнее в вопросах декодирования.

3. В таблице 1 приводятся результаты обработки статистической информации, характеризующие предварительные свойства введённыгх отображений. В столбце 1 дан перечень языков, которые явились предметом исследований (Еп - английский, Е1 - литовский, Ян - русский, Т] - таджикский, Ео - эсперанто). В столбце 2 показаны размеры (в словах) корпусов текстов, подвергнутый обработке.

Обработка корпусной информации начиналась с построения частотных словарей - списка различных слов (без дубликатов) с частотами их встречаемости. Из этих данных в столбец 3 извлечены только числа различных слов.

Далее слова из частотного словаря кодировались тремя способами (столбец 4). Определяемое при этом число различных кодов заносилось в соответствующую строку столбца 5. На этом этапе для каждого языка были сформированы 3 база различных слов с их кодами.

Таблица 1

1. Язык 2. Размер корпуса (в словах) 3. Число различных слов 4. Тип кода 5. Число различных кодов 6. Число однозначных кодов 7. Число двусмыс ленных кодов 8. Отношение (6)/(5) в % 9. Отношение (7)/(5) в %

¥ 119055 106841 12214 89.74 10.26

Еп 11252496 137732 ¥ (/) 130644 124366 6278 95.19 4.81

¥ (/,1) 135618 133570 2048 98.49 1.51

¥ 605039 546254 58785 90.28 9.72

Ы 34165084 693995 ¥ (/) 654475 621487 32988 94.96 5.04

¥(/,1) 675208 657925 17283 97.44 2.56

¥ 462886 430517 32369 93.01 6.99

Яи 19175074 509031 ¥ (/) 488286 470336 17950 96.32 3.68

¥ (/,1) 500433 492360 8073 98.39 1.61

¥ 80080 74512 5568 93.05 6.95

Т] 2323965 87181 ¥ (/) 84220 81501 2719 96.77 3.23

¥(/,1) 85805 84499 1306 98.48 1.52

¥ 147220 133851 13369 90.92 9.08

Ео 5080195 165570 ¥ (/) 158310 151885 6425 95.94 4.06

¥(/,1) 162940 160407 2533 98.45 1.55

На следующем этапе различные коды разделялись на две группы. Одну из них составили однозначно декодируемые коды, число которых указано в столбце 6, а другую - коды анаграмм, названные двусмысленными (им соответствуют несколько прообразов), число которых записано в столбце 7. Следует оговорить, что для отображения ¥ речь идет об анаграммах в смысле приведенного определения, а для отображений ¥(/) и ¥(/ ,1) - соответствующим образом модернизированных анаграммах.

В столбцах 8 и 9 данные столбцов 6 и 7 выражены в процентах по отношению к общему количеству различных кодов столбца 5. Из этих данных видно, что для рассматриваемых языков количество различных однозначно декодируемых кодов на порядок больше, чем суммарное количество различных кодов анаграмм. Отметим, что здесь имеется в виду перечень слов частотных словарей, причём без учёта частот их встречаемости. Полученный результат, отдавая приоритет однозначно декодируемым кодам, создаёт, однако, искажённую картину о мощности множества слов, входящих в состав анаграмм. Дальнейшее исследование, результаты которого представлены в таблице 2, подтверждает сделанный вывод.

Прежде чем переходить к рассмотрению этой таблицы, объясним смысл обозначений F, F() и ^(7'').

4. Как отмечалось в п.п.1 и 2, отображения, F(71 и F(7, 11 каждому слову приписывают единственный код, однако обратные отображения, в общем случае, не

обеспечивают однозначного декодирования. Использование отображений F, F(/) и

—(/, I)

F - это, по существу, попытка устранения неоднозначности при декодировании анаграмм и распознавания порождающих их прообразов за счет использования дополнительных атрибутов, присоединяемых к ав- кодированию.

Определение 4. Отображения F, F(/1 и F(7''1 обладают следующими свойствами:

- они задаются на множестве слов } языка L;

- совпадают, соответственно, с F, F(л и F(7, 11 при кодировании слов;

- их обратные отображения (р)1, ^(71) и ^(7''1) на кодах, однозначно декодируемых, совпадают, соответственно, с F -1, ^(71 )-1, (F(7,11)"' , а на кодах

"анаграмм" каждому из них ставят в соответствие единственное слово W*, которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами с одинаковым кодом.

ПРИМЕР. Положим, что в анаграмме (W: W = казан, казна, наказ} наибольшую частоту в корпусе текстов имеет слово наказ, затем казна. При отображении F ( = F} рассматриваемой анаграмме будет соответствовать код аазкн, которому отображение ^)1 поставит в соответствие слово наказ.

Если же применить отображение F(7 ( = F(7то первые два слова анаграммы получат одинаковый код каазн, а третье слово - код наазк (напомним, что при кодировании первые буквы в словах анаграмм фиксируются}. Коду каазн будет сопоставляться слово казна, у которого частота больше, чем у слово казан.

ЗАМЕЧАНИЕ. Предлагаемый в определении 4 метод распознавания единственного прообраза того или иного кода анаграммы носит вероятностный характер. Он не исключает возможности принятия ошибочного решения в случаях, когда при правильном декодировании на выходе должно появиться слово не с максимальной частотой. Статистические значения величин ошибок определяются для каждого из рассматриваемых языков путем соответствующей обработки текстовых корпусов.

5. Теперь перейдем к обсуждению результатов, представленных в таблице 2. В ней первые два столбца - те же, что и в таблице 1. Третий столбец отмечает 3 типа используемых способов кодирования слов.

Относительно столбцов 4 - 7 следует сказать, что они по своей сути являются продолжением таблицы 1. С учётом того, что согласно определению 4 при

кодировании слов отображения F и F, F(71 и F(Л, F(7,11 и F(7''1 совпадают, эти столбцы представляют информацию о частотах встречаемости однозначно декодируемых кодов и элементов анаграмм (двусмысленных кодов1, причём столбцы 4 и 6 информируют об абсолютных значениях частот, а 5 и 7 - об относительных значениях, выраженных в процентах по отношению к общему количеству слов текстовых корпусов.

Из данных столбцов 4 - 7 и строк, привязанных к отображению ¥, видно, что

для всех языков, за исключением русского, слова, являющиеся элементами анаграмм, составляют более половины общего количества слов текстовых корпусов (для русского языка - 45.69 %).

Итак, несмотря на то, что количество различных однозначно декодируемых слов оказалось на порядок больше количества различных слов, входящих состав анаграмм (см. данные столбцов 8 и 9 для строк ¥ - отображения), частоты встречаемости рассматриваемых элементов в тестовых корпусах пяти языков оказались одного порядка.

Таблица 2

1. Язык 2. Размер корпуса (в словах) 3. Тип кода 4. Частоты однознач - ных кодов 5. Отношение (4)/(2) в % 6. Частоты двусмысленных кодов 7. Отношение (6)/(2) в % 8. Частоты слов, декодируемых по опр.4 9. Отношение (8)/(3) в %

¥ 4738825 42.11 6513671 57.89 1096179 2 97.42

11252496 ¥(/) 8282101 73.60 2970395 26.40 1117957 9 99.35

¥(/,1) 10830821 96.25 421675 3.75 1122436 1 99.75

¥ 15637702 45.77 1852738 2 54.23 3319933 5 97.17

и 34165084 ¥(/) 23737620 69.48 1042746 4 30.52 3383432 8 99.03

—(/.') ¥ 28999545 84.88 5165539 15.12 3402890 0 99.60

¥ 10413280 54.31 8761794 45.69 1872438 4 97.65

19175074 ¥(/) 14490319 75.57 4684755 24.43 1906361 8 99.42

—(/. 1) ¥ 16449834 85.79 2725240 14.21 1914558 7 99.85

¥ 1152420 49.59 1171545 50.41 2280334 98.12

Т] 2323965 ¥(/) 1759262 75.70 564703 24.30 2309336 99.37

—(/. 1) ¥ 2021532 86.99 302433 13.01 2316348 99.67

¥ 1788681 35.21 3291514 64.79 4782380 94.14

Ео 5080195 ¥(/) 4185715 82.39 894480 17.61 5033967 99.09

—(/.') ¥ 4834326 95.16 245869 4.84 5068691 99.77

Что касается данных столбцов 4 - 7 и строк, соответствующих отображениям

¥(/) и ¥(/''), то в этом случае обнаруживается заметное превосходство частоты встречаемости однозначно декодируемых слов. А для английского языка и эсперанто

отображение F(f'') характеризуется особо высокими показателями декодирования, соответственно 96.25 % и 95.16 %.

Последние два столбца, 8 -й и 9-й, таблицы 2 выдают количественные показатели эффективности декодирования в соответствии с определением 4. Для всех пяти языков ошибки принятия неверных решений заключаются в пределах 1% при

f) V1 b(f•1) V1 -з о/

декодировании посредством IF ) и IF I и не превосходит 3 % при

декодировании с помощью F (для эсперанто - не более 6 %).

Отметим, что интерес к F - отображению, равно как и его модификациям F(f) и F(f, 1), объясняется тем, что на множестве их цепочек-образов в сравнении с исходным множеством слов {W} решение ряда задач обработки текстовой информации заметно упрощается.

Область исследований настоящей статьи граничит с работами [3] и [4], в которых обсуждается утверждение Г.Роулинсона (G.E.Rawlinson) о том, что случайное расположение букв в "середине" слов либо слабо влияет, либо не влияет совсем на способность квалифицированного читателя понимать текст.

Список литературы

1. Усманов З.Д. Об упорядоченном алфавитном кодировании слов естественных языков // ДАН Республики Таджикистан, 2012, т.55, № 7, с.

2. Усманов З.Д., Нормантас В. Статистические свойства aß -кодирования слов естественных языков // ДАН Республики Таджикистан, 2012, т.55, № 8, с.

3. Rawlinson, G. E. (1976) The significance of letter position in word recognition. Unpublished PhD Thesis, Psychology Department, University of Nottingham, Nottingham UK.

4. Davis, M (2003) http://www.mrc-cbu.cam.ac.uk/people/matt.davis/Cmabrigde/

i Надоели баннеры? Вы всегда можете отключить рекламу.