Научная статья на тему 'Об упорядоченном алфавитном кодировании слов естественных языков'

Об упорядоченном алфавитном кодировании слов естественных языков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
165
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЕСТЕСТВЕННЫЙ ЯЗЫК / СЛОВО / КОДИРОВАНИЕ / ОБРАЗ / ОТОБРАЖЕНИЕ / NATURAL LANGUAGE / THE WORD / CODING / IMAGE / MAP

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д.

В статье дается определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Отмечаются свойства прямого и обратного отображения множества слов на множество их кодов-образов. Формулируются задачи статистического исследования предложенного отображения на примере естественных языков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About a special alphabetical coding to words of a natural language

In the paper a definition of a special alphabetical coding in which a word is transformed onto a chain of the same letters as in the word, but arranged in the alphabetical order, is introduced. Properties of the direct and reverse mapping of a set of words on the set of their code-images are noted. Two problems of the statistical study of proposed mappings for natural languages are formulated.

Текст научной работы на тему «Об упорядоченном алфавитном кодировании слов естественных языков»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2012, том 55, №7_

ИНФОРМАТИКА

УДК 004.912; 81'322.2

Академик АН Республики Таджикистан З.Д.Усманов

ОБ УПОРЯДОЧЕННОМ АЛФАВИТНОМ КОДИРОВАНИИ СЛОВ

ЕСТЕСТВЕННЫХ ЯЗЫКОВ

Институт математики АН Республики Таджикистан

В статье дается определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Отмечаются свойства прямого и обратного отображения множества слов на множество их кодов-образов. Формулируются задачи статистического исследования предложенного отображения на примере естественных языков.

Ключевые слова: естественный язык - слово - кодирование - образ - отображение.

1. Пусть L - какой-либо естественный язык с алфавитом A и W = "а^г •••аи" - некоторое его слово длины п, состоящее из букв аке А, k = 1, 2,..., п. Рассмотрим цепочку CW = "а а 2 - • -аот ", составленную из тех же самых букв, что и в W, но упорядоченных по алфавиту.

Определение. Отображение Р: W ^ CW назовём упорядоченным алфавитным кодированием (а/- кодированием) слова W, а цепочку букв CW - его а/3 -кодом.

Для пояснения определения укажем, что а/3 -кодирование, например, слова W = "реферат " приводит к цепочке CW = "аеерртф", а слова W = "агент" - к той же самой цепочке CW = "агент", поскольку в этом слове буквы уже расположены в алфавитном порядке.

Слово W и его образ CW можно интерпретировать как две фиксированные алгебраические перестановки из множества п! возможных перестановок п букв, составляющих слово W [1]. Необходимо отметить, что в случае, когда все буквы различные, такая интерпретация очевидна. Если же в слове какая-либо буква встречается более одного раза, то её вместе со своими повторами следует различать по порядку их расположения в слове.

2. Вполне понятно, что Р -отображение каждому слову W ставит в соответствие единственный образ CW, однако обратное отображение (декодирование) является, вообще говоря, не однозначным. Действительно, нарушение однозначности порождается анаграммами, которые присутствуют во многих языках (см., например, [2]) . Согласно определению, анаграмма - это, по крайней мере, пара слов естественного языка, составленных из одного и того же набора букв (например, для

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, ул. Айни, 299/1, Институт математики АНРТ. E-mail: zafar-usmanov@rambler.ru

русского языка: весна — навес, рост -сорт -трос -торс, равновесие — своенравие и т.п). Всякой анаграмме соответствует единственный образ, аР-код. В связи со сказанным возникает

Задача 1. Оценить на основе статистических данных относительные частоты встречаемости анаграмм в естественных языках.

Получаемые оценки дадут представления о том, какова мощность множества анаграмм и в какой мере их наличие нарушает взаимную однозначность предложенного отображения в естественных языках.

3. Помимо рассмотренного ¥ -отображения представляют интерес четыре его модификации, обозначаемые через ¥¥), ¥) и ¥1). Так же, как и ¥ , они определены на множестве [Ж] слов естественного языка Ь .

Модифицированное отображение ¥ * наделим следующими свойствами:

• ¥ * определено на множестве {Ж ], Ж е Ь ;

• ¥ : Ж ^ СЖ, то есть отображает слова на их аР - коды;

• обратное отображение ¥ * 1 на множестве однозначно декодируемых кодов совпадает с ¥ 1, а на множестве анаграмм каждому образу СЖ ставит в соответствие единственное слово Ж , которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами из набора слов рассматриваемой анаграммы.

4. В случае ¥() слову Ж ставится в соответствие пара (СЖ, ), в которой СЖ, так же

как и в п.1, является аР - кодом слова Ж, а - число транспозиций, с помощью которых осуществляется переход от цепочки Ж к цепочке СЖ (или же наоборот от СЖ к Ж). Здесь предполагается, что п! всевозможных перестановок букв слова Ж расположены в таком порядке, что каждая следующая перестановка получается из предыдущей одной транспозицией [1].

Представляется очевидным, что отображение ¥' : Ж ^ (СЖ, ), уж если и не является взаимно однозначным, то, во всяком случае, осуществляет более "успешное" декодирование, нежели

СЖ ^ Ж.

5. В случае ¥ ^)- отображения слову Ж ставится в соответствие цепочка ах С (Ж ¡а ), в которой а - первая буква в слове Ж и С (Ж ¡а) есть аР - код цепочки Ж ¡а , то есть слова Ж без первой буквы.

Так же, как и отображение предыдущего пункта, декодирование а1С(Ж / а1) ^ Ж в определенном смысле обладает лучшими свойствами, чем СЖ ^ Ж.

6. Ещё один способ кодирования представляется следующим образом ¥1) : Ж ^ а С (Ж ¡{а ,ап ])ап. В нём первая ах и последняя ап буквы слова Ж остаются неподвижными, а цепочка букв между ними, то есть Ж / [аг ,ап ] , подвергается аР - кодированию.

Информатика

З.Д.Усманов

Очевидно, что данное отображение несколько сложнее, чем предыдущее, зато наверняка успешнее в вопросах декодирования.

7. Подводя итоги, отметим, что все рассмотренные отображения произвольному слову Ж ставят в соответствие единственный образ. В свою очередь, их обратные отображения (декодирования) не являются, вообще говоря, однозначными. Как отмечалось в п.1, для обратного ¥ -отображения нарушение однозначности происходит за счёт анаграмм: образу всякой анаграммы соответствует не менее двух прообразов на множестве {Ж}.

Обращение к модифицированным отображениям ¥( ), ¥, ¥(^) и ¥1) - это, по существу, попытка устранения неоднозначности при декодировании анаграмм и распознавания порождающих их прообразов за счёт использования дополнительных атрибутов, присоединяемых к а/ - кодированию.

Эффективность введённых отображений для тех или иных естественных языков может быть оценена лишь экспериментально, путем статистической обработки репрезентативной информации. По этой причине заслуживает внимание

Задача 2. Изучить статистические свойства ¥¥^ , ¥^) и ¥1) отображений, в частности оценить эффективность декодирования образов анаграмм.

Интерес к ¥ -отображению, равно как и сопутствующим отображениям ¥¥), ¥^) и ¥1), объясняется тем, что на множестве их цепочек-образов в сравнении с исходным множеством слов {Ж} решение ряда задач обработки текстовой информации заметно упрощается.

В качестве примера рассмотрим использование ¥ -отображения для автоматического исправления ошибки, возникшей вследствие перестановки букв в написании некоторого слова Ж . Этот процесс происходит следующим образом. Вначале слову Ж сопоставляется его код СЖ. Затем по коду СЖ происходит поиск его прообраза в базе "Ж ^ СЖ ". Если Ж не является элементом анаграммы, то Ж будет единственным прообразом СЖ . И следовательно, ошибка, связанная с перестановкой букв (причём не обязательно рядом стоящих), исправляется.

Если же СЖ оказалась а/ - кодом анаграммы (например, СЖ = "аворт" является кодом

анаграммы автор - отвар - рвота - тавро - товар), то выбор прообраза может быть произведён,

например, по его максимальной частоте (как при отображении ¥( )). Однако в этом случае не исключается ошибка в принятии решения.

Поступило 22.07.2012 г.

ЛИТЕРАТУРА

1. Курош А.Г. — Курс высшей алгебры. - М.: Наука, Главная редакция физико-математической литературы, 1968, 431 с.

2. Анаграмма — Википедия: Шр^/гц.'шЫре&а.ощ/'шЫ/Анаграмма

3.Ч,.Усмонов

ОИДИ БА ТАРТИБОРИИ АЛФАВИТЙ БА КОД ДАРОВАРДАРДАНИ КАЛИМАХО ДАР ЗАБОНИ ТАБИЙ

Институти математикаи Академияи илм^ои Цум^урии Тоцикистон

Дар макола таърифи ба тартибории алфавита ба код даровардардани калимахо дода шудаанд, ки тибки он ба калима дастаи харфхои аз руи алфавит чойгиршудаи он мувофик гу-зошта мешавад. Хосиятхои инъикосх,ои рост ва баръакси мачъмуи калимахо ба кодх,о-образх,ои онхо оварда шудаанд. Масъалахои тадкики омории инъикоси пешниходшуда дар мисоли забо-ни табий баён карда шудаанд.

Калима^ои калиди: забони табий - калима - ба код даровардан - тасвир - инъикос.

Z.D.Usmanov

ABOUT A SPECIAL ALPHABETICAL CODING TO WORDS OF A NATURAL LANGUAGE

Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan In the paper a definition of a special alphabetical coding in which a word is transformed onto a chain of the same letters as in the word, but arranged in the alphabetical order, is introduced. Properties of the direct and reverse mapping of a set of words on the set of their code-images are noted. Two problems of the statistical study of proposed mappings for natural languages are formulated. Key words: natural language - the word - coding - image - map.

i Надоели баннеры? Вы всегда можете отключить рекламу.