Научная статья на тему 'Кодирование предложений'

Кодирование предложений Текст научной статьи по специальности «Математика»

CC BY
557
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЕСТЕСТВЕННЫЙ ЯЗЫК / ЦЕПОЧКА / КОДИРОВАНИЕ / УПОРЯДОЧЕНИЕ / АНАГРАММА / NATURAL LANGUAGE / LETTER STRING / CODING / ARRANGEMENT / SENTENCE / ANAGRAM

Аннотация научной статьи по математике, автор научной работы — Усманов З. Д.

Предлагается специальный способ упорядоченного алфавитного кодирования буквенных цепочек, позволяющий упорядочивать предложения в пределах текста, а также определять, являются ли любые два предложения, извлечённые из коллекции текстов, анаграммами друг друга или нет.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Coding of sentences

A special method of alphabetical coding to letter strings is used for arranging sentences in texts and recognizing sentence anagrams.

Текст научной работы на тему «Кодирование предложений»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2013, том 56, №5_

ИНФОРМАТИКА

УДК 4:51::81'322

Академик АН Республики Таджикистан З.Д.Усманов

КОДИРОВАНИЕ ПРЕДЛОЖЕНИЙ

Институт математики им.А.Джураева АН Республики Таджикистан

Предлагается специальный способ упорядоченного алфавитного кодирования буквенных цепочек, позволяющий упорядочивать предложения в пределах текста, а также определять, являются ли любые два предложения, извлечённые из коллекции текстов, анаграммами друг друга или нет.

Ключевые слова: естественный язык - цепочка - кодирование - упорядочение - анаграмма.

Кодирование цепочек. Для естественного языка L с буквенным алфавитом A обозначим через W = "аа " некоторую цепочку букв длины п (а: е A , k = 1, п). Введём в рассмотрение цепочку CW = "а81ах2 •••аш ", составленную из тех же самых букв, что и в W, но упорядоченных по алфавиту А (пример: если W = "вертикаль ", тогда СЖ = "авеиклрть").

Определение 1. Отображение Е : W ^ CW назовём упорядоченным алфавитным (а/-) кодированием цепочки W, в свою очередь CW назовём а/- кодом цепочки W .

Отображение Е и ряд "сопутствующих" отображений предложены в [1] для кодирования словоформ и автоматизации процесса обнаружения анаграмм в текстовых коллекциях. В [2] и [3] для английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто выполнен статистический анализ эффективности а/3 - кодирования (в смысле возможности осуществления взаимно однозначного соответствия между словоформами и их а/ - кодами). В [4] и [5] для текстовых корпусов таджикского, английского и русского языков получены статистические данные о количестве различных анаграмм с заданными мощностями (числом элементов). Анонсирован ряд анаграмм с наибольшим количеством элементов.

Во всех статьях обработка данных основывается на двух процедурах:

- построении списка различных словоформ с частотами их встречаемости в базе данных;

- кодировании полученных словоформ и формировании списка различных кодов с частотами их встречаемости.

Словоформа является частным случаем понятия цепочки букв, однако это не препятствует автоматическому распространению описанных процедур на множество {W}, элементами которых являются цепочки W. Итогом выполнения первой процедуры будет список цепочек с их частотами на множестве {W}, а итогом второй - список различных а/- кодов множества цепочек.

Эти процедуры, формальные по отношению к абстрактным цепочкам, приобретают определённый смысл в следующем пункте.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru.

Доклады Академии наук Республики Таджикистан

2013, том 56, №5

Кодирование предложений. Пусть S - некоторое предложение на языке L, состоящее из p словоупотреблений. Удалив из S все знаки препинаний и пробелы между словоупотреблениями, получим цепочку W(S) букв предложения S.

Определение 2. Цепочку CW(S), получаемую отображением F : W(S) ^ CW(S), назовём а/3 -кодом предложения S.

Из этого определения следует

Утверждение. Пусть S0 и S - два различных предложения таких1, что CW(S0 ) = CW(S ). Тогда S0 и S - суть элементы одной анаграммы, то есть получаются один из другого перестановками соответствующих букв.

ПРИМЕР 1 (En). Пусть S0 = "еleven plus two" и S = "twelve plus one". Так как оба предложения имеют один и тот же а/3 - код, а именно CW(S0 ) = CW(S ) = "eeellnopstvuw", то в соответствии с высказанным утверждением рассмотренные предложения являются элементами одной анаграммы, поскольку состоят из одного и того же набора букв.

ПРИМЕР 2 (Ru). S0 = "сижу в области" и S = "вижу слабости". И у этих предложений один

и тот же а/- код CW(S0 ) = CW(S ) ="абвжиилоссту".

ПРИМЕР 3 (Ru). S = "Леонардо да Винчи" и S = "На вид родич идола". И здесь CW(S ) = CW(S ) ="аавддеиилнноорч".

Эти примеры подсказывают, что если S0 и S заданы, причём оба извлечены из коллекции текстов, то сравнение их а/ - кодов позволяет ответить на вопрос, являются ли они анаграммами друг друга или нет. На этом фоне более интересной представляется

Задача А. По заданному S0 определить, существует ли в пределах заданной текстовой коллекции такое S , что CW(S0 ) = CW(S ) .

Вполне понятно, что в качестве области значений S и S следует рассматривать множество, элементами которого являются предложения и их фрагменты. Если для конкретного S0 задача оказывается разрешимой, то естественно ожидать получение S в явном виде. Сложность решения данной задачи заключается, по-видимому, в разработке модели системного перебора в пределах заданной коллекции текстов всех претендентов на роль S .

Индексирование элементов. а/ -кодирование может быть использовано для формального (без определённых целей) упорядочения словоформ в пределах предложения, а также самих предложений - в пределах текста. В самом деле, из двух элементов, будь то словоформы или предложения, предшествующим будем считать тот, который состоит из меньшего числа букв, а в случае равенства - элемент, предшествующий по алфавиту языка L. Перенося алфавитный порядок расположения це-

1 Предложения рассматриваются с точностью до знаков препинания.

Информатика

З.Д.Усманов

почек на их прообразы (словоформы и предложения), получим соответствующее упорядочение элементов.

Поступило 15.04.2013 г.

ЛИТЕРАТУРА

1. Усманов З.Д. - ДАН РТ, 2012, т.55, № 7, с. 545-548.

2. Усманов З.Д., Нормантас В. - ДАН РТ, 2012, т.55, № 8, с. 622-625.

3. Усманов З.Д., Нормантас В. - Материалы 16 научно-практ. семинара "Новые информационные технологии в автоматизированных системах".- М., 2013, с. 287-292.

4. Усманов З.Д., Довудов Г.М., Холматова С.Д. - Известия АН РТ. Отделение физ.-мат., хим., геол. и техн. наук, 2013, № 1 (150), с. 32-39.

5. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2013, т.56, №3, с. 196-200.

3.4,-Усмонов

КОДИРОНИИ ЧУМЛА^О

Институтиматематикаи ба номи А.Цураеви Академияи илмх;ои Цум^урии Тоцикистон

Дар макола кодиронии махсуси алифбоии пайдарпайии харфхо пешниход карда меша-вад, ки имконияти ба тартибоварии чумлахоро дар худуди матн медихад, инчунин кодиронии мазкур муайян менамояд, ки оё ду чумлаи дилхохи аз мачмуи матнхо гирифташуда анаграммаи якдигаранд.

Калима^ои калиди: забони табии - пайдарпайи - кодирони - ба тартибовари - анаграмма

Z.D.Usmanov CODING OF SENTENCES

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan A special method of alphabetical coding to letter strings is used for arranging sentences in texts and recognizing sentence anagrams.

Key words: natural language - letter string - coding - arrangement - sentence - anagram

i Надоели баннеры? Вы всегда можете отключить рекламу.