Научная статья на тему 'Редакционное расстояние в свободных леворегулярных связках'

Редакционное расстояние в свободных леворегулярных связках Текст научной статьи по специальности «Математика»

CC BY
72
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
СВОБОДНАЯ ЛЕВОРЕГУЛЯРНАЯ СВЯЗКА / РЕДАКЦИОННОЕ РАССТОЯНИЕ / FREE LEFT REGULAR BAND / EDIT DISTANCE

Аннотация научной статьи по математике, автор научной работы — Вахрамеев Михаил Анатольевич

В работе вводится аналог редакционного расстояния (расстояния Левенштейна) для свободных леворегулярных связок. Получены формулы для определения количества пар слов, имеющих заданное редакционное расстояние, а также для вычисления среднего значения редакционного расстояния для свободной леворегулярной связки ранга.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EDIT DISTANCE IN FREE LEFT REGULAR BANDS

In this paper, we introduce the analog of the edit distance (also known as Levenshtein distance) for free left regular bands. We find formulas for the number of pairs of words with specified edit distance and for the average value of the edit distance for words of the free left regular band of the rank.

Текст научной работы на тему «Редакционное расстояние в свободных леворегулярных связках»

УДК 512.53

DOI 10.25513/1812-3996.2018.23(3).15-19

РЕДАКЦИОННОЕ РАССТОЯНИЕ В СВОБОДНЫХ ЛЕВОРЕГУЛЯРНЫХ СВЯЗКАХ М. А. Вахрамеев

Институт математики им. С. Л. Соболева СО РАН, Омский филиал, г. Омск, Россия

Информация о статье Аннотация. В работе вводится аналог редакционного расстояния (расстояния Левен-

Дата поступления штейна) для свободных леворегулярных связок. Получены формулы для определения

19.06.2018 количества пар слов, имеющих заданное редакционное расстояние, а также для вы-

числения среднего значения редакционного расстояния для свободной леворегуляр-Дата принятия в печать ной связки ранга п.

29.06.2018

Дата онлайн-размещения 29.10.2018

Ключевые слова

Свободная леворегулярная связка, редакционное расстояние

Финансирование

Исследование выполнено при поддержке Программы фундаментальных научных исследований СО РАН № М.1.4 в рамках научного проекта № 0314-2016-0004

EDIT DISTANCE IN FREE LEFT REGULAR BANDS

M. A. Vakhrameev

Sobolev Institute of Mathematics SB RAS, Omsk Branch, Omsk, Russia

Article info Abstract. In this paper, we introduce the analog of the edit distance (also known as Le-

Received venshtein distance) for free left regular bands. We find formulas for the number of pairs of

19.06.2018 words with specified edit distance and for the average value of the edit distance for words

of the free left regular band of the rank n.

Accepted 29.06.2018

Available online 25.10.2018

Keywords

Free left regular band, edit distance

Acknowledgements

The reported study was funded by the of Fundamental Research Program of SB RAS № I.1.1.4 according to the research project № 0314-2016-0004

1.Введение

Одним из важных понятий современной комбинаторики является понятие редакционного расстояния между двумя строками. Свойства редакционного расстояния изучались во многих работах (об этом свидетельствуют порядка 8000 ссылок на классическую работу В.И. Левенштейна [1]).

Фактически редакционное расстояние корректно и адекватно вводит понятие расстояния на элементах свободной полугруппы (моноида), порожденной множеством букв А. Однако применение редакционного расстояния для элементов свободной полугруппы F собственного подмногообразия V не всегда оправдано. Это связано с тем, что элементарные операции (вставка, удаление, изменение буквы в строке) могут быть совершенно не согласованными с алгебраической структурой полугруппы F.

В настоящей работе мы предлагаем аналог редакционного расстояния для свободной леворегу-лярной связки F, вычисление которого является алгебраической операцией (умножением слева). Подобное определение редакционного расстояния для свободной леворегулярной связки согласуется с алгебраической структурой F, и поэтому может быть корректно использовано для вычисления расстояний между элементами. Помимо определения редакционного расстояния для F мы находим формулы для вычисления количества пар слов, имеющих заданное редакционное расстояние, а также для вычисления среднего значения редакционного расстояния для свободной леворегулярной связки ранга п.

Отметим, что введенная нами функция редакционного расстояния формально не является метрикой, поскольку аксиома симметричности и аксиома треугольника не выполняются для данной функции. Но мы полагаем, что это не является серьезным недостатком по следующей причине. Умножение слева (которое используется нами при вычислении редакционного расстояния) является важной операцией в леворегулярных полугруппах и используется, например, в работе [2], где изучались случайные блуждания на свободной леворегулярной полугруппе. Можно показать, что введенная нами функция редакционного расстояния для элементов х,у пропорциональна вероятности случайного перехода из х в у при случайном блуждании по свободной леворегулярной полугруппе.

2. Основные определения

Полугруппа 5 называется леворегулярной связкой, если:

-ISSN 1812-3996

1) для любого х 6 5: х °х = х;

2) для любых х,у 6 S: х°у°х = х°у.

Будем рассматривать свободную леворегуляр-

ную связку Fn, порожденную множеством букв А = {а1,.,ап}, с присоединенной единицей г и операцией умножения заданной следующим образом:

х°у = х3х(у), где 3х(у) - оператор, удаляющий из у все буквы, содержащиеся в х. Например, (aiÜ2) о (а2а3а1) = а^З^^а-за^ = а^а^

Таким образом, связка Fn состоит из всех слов алфавита А, не содержащих повторяющихся букв. Запись слова s 6 Fn длины к буквами алфавита А будем обозначать, как aSlaS2...aSk. Отметим также, что оператор 3 обладает следующим свойством: пусть х= аХ1аХ2 ...aXsaXs+1 ...аХк 6 Fn, х' = аХ1аХ2 ...aXs 6 Fn, х" = aXs+1 ...аХк 6 Fn, тогда: 3х"(3х'(у))= 3Х'(3Х"(У))= 3х(у).

Количество слов в свободной леворегулярной связке Fn равно

п

\Fn\ = l+ ^п(п-1)...(п-к + 1) =

к=1

= I

к=0

П!

(п - к)!'

Расстоянием Левенштейна (также редакционным расстоянием или дистанцией редактирования) между двумя строками называется минимальное число операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Введем аналог расстояния Левенштейна для свободной леворегулярной связки Fn. Пусть 5х,52 Е Fn, тогда редакционным расстоянием й^(Б1,Б2) (или просто й(Б1,Б2)) от 51 до б2 будем называть тт{ 1x1, х Е Рп ■ х ° Б1 = 52].

Заметим, что введенное таким образом редакционное расстояние над Рп определено только для таких пар в которых 51 не содержит букв, не

присутствующих в б2. Пары для которых

й^(Б1,Б2) определено, мы будем называть сравнимыми. Отметим, что если пара ^^^ - сравнимая, то пара (б2, б^) таковой может и не быть. При этом, если пары (51,52) и ^^^ являются сравнимыми, значения й^(Б1,Б2) и dFn(s2,s1) не обязаны совпадать. Также отметим, что для любой сравнимой пары ^^ dFn(Sl,S2) < Ы, так как Б2 ° Б1 = Б2.

Количество всех пар 51,52 Е Рп равно

^П? = Пусть Р(Рп) - множество всех

ISSN 1812-3996 "

сравнимых пар. Найдем Пусть

ж = аш±аш2 — ашк Е Рп. Для того чтобы пара V Е Рп была сравнимой, необходимо, чтобы слово V состояло только из букв аш.. Количество таких допустимых слов V равно

к к

1 + lk(k-1)---(k-i + 1) = lw-!)!

1 = 1 1=0 Таким образом, число сравнимых пар равно

п к

п! V к!

№)| =£|

£(к — а

(п — к)\А.,(к — 0!'

к=0 =0

3. Среднее редакционное расстояние сравнимых пар слов

Под средним редакционным расстоянием сравнимых пар мы будем понимать отношение суммы редакционных расстояний всех сравнимых пар к числу всех сравнимых пар:

п (р Л _ ^(5Ъ82)ЕР(РП) ^п^^^)

иСрХ"п) 1Р(Рп)1 Ш

Пусть 5 Е Рп, р() = \[ж ЕРп- йрп(ж,Б) = ¿}| - число слов, редакционное расстояние от которых до слова 5 равно ¿, или, что то же самое, число сравнимых пар вида (ж, б), w Е Рп, для которых йРп(№,Б) = ¿. Заметим, что р; (5) = 0для всех ¿больших длины 5. Далее, т(Г) = £5ЕрпР1(Б) - число пар слов, редакционное расстояние которых равно . Тогда выражение для среднего редакционного расстояния можно переписать следующим образом:

иСр(Рп) 1Р(Рп)1 1Р(Рп)1 •

Докажем утверждение.

Утверждение 3.1.

Для любого 5 = а^а32 — а5к Е Рп справедливо:

1) Ро^) = 1;

2) для любого ¿, 1 <1 <к:

Pi(s) = £ C*-p-(i + p

k)\-Ci;-i

p=k-i

£ ck-7-d + P

— к — 1)! • C

k-i+1 P '

p=k-i+1

Доказательство. Для начала докажем следующие три леммы.

Лемма 3.1.

. ауг Е Рп. Если существует х = ах ах —аХт Е Рп, т<Ь такой, что х ° г = у, то для любого р > 0 такого, что т + р < Ь, существует х' = а^ а

Пусть z Е Fn, у = ayiay2 е ,„.

' a%m axm+l

хт+р

Х1 х2

Е Рп такой, что х' ° г = у.

Доказательство. Пусть р > 0 задано. Так как

х°2 = аХ1аХ2 — аХтЗх(г) = у = ау1ау2 —

■■■аУтаУт+1 — аУт+р — ау^ ТО ах± = ау1 —,аХт = = аУт, а Бх(г) = аут+1— Оут+р—^. Выберем х' = ах1ах2—ахтаут+1—аут+р. ТогДа, используя свойства оператора 3, получаем, х'° г =

= ах1ах2 —ахтаут+1 —аут+р3х'(г) = = ах1ах2 — ахтаут+1 — аУт+р3 аут+1—аут+р(3 х(г)) =

ах1ах2 — ахтаут+1 аут+р3 аут+1—аут+р ^ Х {Ут+1 — -ут+рут+р + 1 =

= ау1ау2 —аутаут+1 — аут+раут+р+1 — аУt = у.

Пусть 5 = ав ав ... ав Е Рп. Для любого 0 < I < к определим Т^(б) = [г Е Рп13 х = = ах1ах2 — ах. ЕРпТ.ч. х°г = 5}.

Лемма 3.2. Т0(б) С Т1(б) С ... с Тк(Б). Доказательство. Пусть 5 = а51а52 ... а5 Е Рп, г Е Т^б), 0 < I < к, то есть существует х = ах1ах2 —ах. Е Рп такой, что х ° г = б. Но тогда по лемме 3.1. существует х' = ах1ах2 — аХ1аХ1+1 Е Рп такой, что х' ° г = б. Следовательно, г Е Т^^б) и ВД С Т1+1(Б).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Лемма 33. КЮ^^к-рШ+р-^ 7Р) = 1,рр-=к-1сГ^« + Р-к)!^Рк-.

Доказательство. Пусть 5 = а51а52 ... а5 Е Рп. В Т^б) могут входить слова г Е Рп длины от к — I до к включительно, состоящие из букв а5., 1 < ] < к. Разобьем все буквы, входящие в состав 5, на два множества: 5' = [а81а82 — а,.} и 5'' = [а5.+1 — аХк}.

Пусть г = а21а22 — а2р Е Рп, к — 1<р<к, г Е Т1(б), то есть существует х = ах1ах2 — ах. Е Рп что х о2 = ах1ах2 —ах13аХ1аХ2...аХ1(г) = 5 = = а51а52 —а5к. Отсюда следует, что ах1 = а81,ах2 = = а82, —, ах. = а8. и в г обязательно содержатся все буквы множества 5'' и р — (к — I) букв из множества 5'. Также г удовлетворяет следующему свойствУ: 3 ах1ах2—ах.^) = = аз+1 —а3к ■ Вычислим количество подходящих букв z.

В z содержатся р — (к — I) букв из множества 5'. Количество всех возможных вариантов выбрать р — ( к — ) букв из множества 5' равно

С

p-(k-i)

= Ck-P. Эти

(р-(к-0)!-(к-р)! (к-р)!(1+р-к)! 1 р — (к — I) букв из 5' могут занимать произвольные места в слове г. Количество вариантов разместить р — ( к — ) букв в слове из р букв равно р(р — 1) — (р — (р — (к — 0) + 1) =

k

a

■ ISSN 1812-3996

(k-i)!

= р(р — l)...(k — i + 1) =

= (i + р — к)! • Ср-1. Остальные места в слове z будут заняты буквами из S" единственным образом,

чтобы удовлетворять свойству За а а (z) =

X1 х2"' xi

(z) = as ...as . Таким образом,

asias2...as.\*; "-si+i ■■■

число слов из р букв, принадлежащих множеству

i! р! _ ,-к-р

Ti(s) равно

-) = ci РЛ1 + Р

(k-p)!(i+p-k)! (k-i)! к)! • Ср-1. Количество всех слов множества Ti(s) равно

ITt(s)l= £

р!

p=k-i к

(k — p)!(i + p — k)! (k — i)!

= £ С1к-р • (1 + р — к)! • Ср-1. р=к—1

Перейдем теперь непосредственно к доказательству утверждения. Пусть 5 = а51а52 ...а5к Е Из определения множеств Т^б) и леммы 3.2 следует, что ро(Б) = 1То(б)1 а р1(Б) = 1Т1(б)1-

— ^¿^(я)!, 0<1<к. Из леммы 3.3 следует, что Ро(з) = С° • (0)! • С* = 1, а Р1(з) = ^^ С*-р х х и+р — к)!• С$-1 — !£=к-1+1 С*- •(Ь + р — к —

— 1)\^С1^-1+1, 0 < I < к.

Следствие 3.1.

1) т = Гк=о^

2) т(» = гк=~(1.кР=к-^-р<> + р —

к)! • С*-1 — Т1кр=к-1+1 С?-? •а + р — к — 1)\х х С£-1+1), 1<1<п.

Доказательство. По определению т(1) = ^¡Е^Р1(5), при этом р^б) = 0 для всех I больших длины 5. Используя формулы для р^б) из утверждения 3.1, а также учитывая, что число слов в Т^, длина которых больше либо равна ¿, составляет %к=1,,

получим требуемое.

Используя результаты следствия 3.1., получаем формулу для вычисления среднего редакционного расстояния сравнимых пар.

Теорема 3.1. Среднее редакционное расстояние сравнимых пар слов свободной леворегулярной

связки Рп может быть вычислено по формуле ( , _

yn ( yfc \

Lk=°\(n — k)! Li=0(k — i)!)

где

г(0 = ^!^—к)!.

k=i

к

х\ £ Cf-P • (i + р — к)! • C*-i —

yp=k-i

£ С?- •(i + p — k — l)!• ) .

_1 ^ I г ... ^^

р=к-1+1

Пример 3.1. Рассмотрим свободную леворегу-лярную связку F2. В таблице 1 приведены значения редакционного расстояния для всех возможных пар

О^Х 51,52 Е ^2.

Таблица 1

Sl\S2 £ ai a2 a.ia.2 a.2a.i

£ 0 1 1 2 2

a1 - 0 - 2 1

^2 - - 0 1 2

0-10-2 - - - 0 1

0-2a1 - - - 1 0

По данной таблице легко вычисляются значения ^¿(УН, рк(Б) и т(0 для F2, а также ^^^ и

Оср.Ш

!То(е)! = |{£}| = 1;

^(М = 1{а1}1 = 1, !Т1(а1)! = !{£,%}! = 2; 1То(а2)1 = |{«2}1 = 1, 1ТЛа2)1 = 1{е,а2}1 = 2; !То(а1а2)! = Ка^}1 = 1; ^1(0.10.2)! = 1{а1,а2,а1а.2}1 = 3; ^(а^)! = !{е, 0.1,0.2,0.10.2,0.20.^1 = 5; 1То(а201)1 = 1{а2а1}1 = 1; 1Т1(0201)1 = Ка^а^а^а^ = 3; 1Т2(0201)1 = !{е, 01,02,0^2,0201^ = 5; Ро(£) = Р0(^1) = Ро(^2) = РоЬ^) =

= Ро(а201) = 1;

Р1(а1) = Р1(а2) = 1, Р1(0102) = Р1(0201) = 2; Р2 (а1а2) = Р2&2&1) = 2; т(0) = 5, т(1) = 6, т(2) = 4; !Р(Рп)! = 15;

Полученные значения полностью соответствуют утверждению 3.1, леммам 3.2 и 3.3, следствию 3.1 и теореме 3.1.

Пример 3.2. В таблице 2 приведены значения среднего редакционного расстояния сравнимых пар слов для свободных леворегулярных связок рангов от 1 до 10, вычисленные с помощью формулы теоремы 3.1.

х

Вестник Омского университета 2018. Т. 23, № 3. С. 15-19

ISSN 1812-3996-

Таблица 2

Ранг Доля сравнимых пар Среднее редакционное расстояние сравнимых пар

1 0.75 0.3333333333333

2 0.6 0.9333333333333

3 0.51953125 1.736842105263

4 0.476449704142 2.636860407352

5 0.4515694982875 3.575774624409

6 0.4358508651385 4.533136277942

7 0.4251211305877 5.501287883587

8 0.4173407240243 6.476548270988

9 0.4114365511894 7.456786241978

10 0.4067994603325 8.440646440569

СПИСОК ЛИТЕРА ТУРЫ

1. Левенштейн В.И. Двоичные коды с исправлением выпадений вставок и замещений символов // Докл. АН СССР. 1965. Т. 163, № 4. С. 845-848.

2. Brown K. S. Semigroups, rings and Markov chains // J. Theoret. Probab. 2000. Vol. 13, no. 3. P. 871-938.

ИНФОРМАЦИЯ ОБ АВТОРЕ

Вахрамеев Михаил Анатольевич - аспирант лаборатории комбинаторных и вычислительных методов алгебры и логики, Институт математики им. С. Л. Соболева Сибирского отделения Российской академии наук, Омский филиал, 644099, Россия, г. Омск, ул. Певцова, 13; e-mail: vahrmih@yandex.ru.

ДЛЯ ЦИТИРОВАНИЯ

Вахрамеев М. А. Редакционное расстояние в свободных леворегулярных связках // Вестн. Ом. ун-та. 2018. Т. 23, № 3. С. 15-19. DOI: 10.25513/1812-3996. 2018.23(3).15-19.

INFORMATION ABOUT THE AUTHOR

Vakhrameev Mikhail Anatolievich - Postgraduate Student, Sobolev Institute of Mathematics Siberian Branch of the Russian Academy of Sciences, Omsk Branch, 13, Pevtsova st., Omsk, 644099, Russia; e-mail: vahrmih@ yandex.ru.

FOR QTATIONS

Vakhrameev M.A. Edit distance in free left regular bands. Vestnik Omskogo universiteta = Herald of Omsk University, 2018, vol. 23, no. 3, pp. 15-19. DOI: 10.25513/1812-3996.2018.23(3).15-19. (in Russ.).

i Надоели баннеры? Вы всегда можете отключить рекламу.