DOI: 10.17323/2587-814X.2020.2.84.92
О возможности определения префикса и суффикса слова по подсловам фиксированной длины
Г.Н. Жуковаа в
E-mail: galinanzhukova@gmail.com
Ю.Г. Сметанинb
E-mail: smetanin.iury2011@yandex.ru
М.В. Ульяновc
E-mail: muljanov@mail.ru
а Национальный исследовательский университет «Высшая школа экономики» Адрес: 101000, г. Москва, ул. Мясницкая, д. 20 b Федеральный исследовательский центр «Информатика и управление» Российской академии наук Адрес: 119333, г. Москва, ул. Вавилова, д. 40 c Институт проблем управления им. В.А. Трапезникова Российской академии наук Адрес: 117997, г. Москва, ул. Профсоюзная, д. 65
Аннотация
В прикладных задачах бизнес-информатики, связанных с анализом данных (в частности, при анализе и прогнозировании временных рядов, при исследовании лог-файлов бизнес-процессов) возникают задачи качественного анализа. Методы качественного анализа достаточно часто используют символьное кодирование как способ представления информации об исследуемых процессах. В ряде ситуаций, обусловленных фрагментарностью таких описаний, возникает задача реконструкции полного символьного описания процесса (слова) по его последовательным фрагментам (подсловам). По мультимножеству всех подслов достаточно большой длины исходное слово восстанавливается однозначно. В случае недостаточно длинных подслов возможно множество различных реконструкций исходного неизвестного слова. Число допустимых реконструкций можно сократить, если определить суффикс и префикс реконструируемого слова. Предложен метод определения префикса и суффикса слова над конечным алфавитом, состоящих из к — 1 символов каждый, на основании мультимножества V подслов фиксированной длины, равной к. Принимается гипотеза о том, что это мультимножество порождено смещением на один символ окна фиксированной длины к по неизвестному слову. Метод определения префикса и суффикса основан на построении и анализе матрицы, образованной записанными по строкам в произвольном порядке подсловам из Vи использовании оператора, действующего на мультимножества символов алфавита, образованных соседними столбцами этой матрицы. Метод позволяет определить префикс а1а2 ... ак_ 1 и суффикс Ь1Ь2 ... Ьк_ 1 неизвестного слова в случае, если а.ф Ь 1 для любых I от 1 до к — 1. В случае, если а ф Ь. только для некоторых значений I, в префиксе и суффиксе определяются символы в соответствующих позициях, а для остальных символов выполняется условие а. = Ь.. В худшем случае метод констатирует, что а= Ь для всех I от 1 до к — 1, но не определяет сами символы. Это ситуация, при которой префикс и суффикс совпадают, но не могут быть определены.
Ключевые слова: реконструкция слова; префикс; суффикс; мультимножество подслов; подслова фиксированной длины; оператор сдвига.
Цитирование: Жукова Г.Н., Сметанин Ю.Г., Ульянов М.В. О возможности определения префикса и суффикса слова по подсловам фиксированной длины // Бизнес-информатика. 2020. Т. 14. № 2. С. 84—92. DOI: 10.17323/2587-814Х.2020.2.84.92
Введение
В прикладных областях бизнес-информатики, связанных с анализом данных, таких как анализ и прогнозирование временных рядов [1—6], исследование лог-файлов бизнес-процессов [7] и др. возникают задачи качественного анализа. В этом случае одним из часто используемых способов представления информации о процессах является символьное кодирование [8]. При этом описание поведения временного ряда или бизнес-процесса кодируется словом над конечным алфавитом, которое и является объектом дальнейшего исследования. Однако в ряде случаев, в том числе при анализе бизнес-процессов и временных рядов, исследователи получают не само слово целиком, а множество подслов, которые являются последовательными фрагментами некоторого слова. Поскольку при этом позиции подслов в исходном слове неизвестны, возникает задача реконструкции — восстановления неизвестного слова по исходному множеству подслов [9—17]. Эта задача содержательно относится к специальному разделу дискретной математики — комбинаторике слов [18]. Объектами исследования в комбинаторике слов являются слова над произвольными алфавитами, а предметом исследований — изучение комбинаторных свойств различных множеств слов, как конечных, так и бесконечных. В реальных прикладных задачах информация о словах часто оказывается неполной. Например, такая ситуация неизбежна при анализе бесконечных временных рядов, измеряемых на протяжении конечных интервалов времени.
Заметим, что одной из важных областей практического применения методов комбинаторики слов является область биомолекулярных моделей и процессов. При этом работа с фрагментарной информацией характерна для ряда задач биоинформатики и геномики. Например, задача секве-нирования геномов [19, 20] по сути является задачей реконструкции слов в условиях сильных ограничений, подразумевающей однозначность реконструкции.
Задачи восстановления слов над конечным алфавитом имеют различные постановки, отличающиеся как объемом имеющейся информацией, так и ограничениями на допустимые решения [21—23]. Обычно эти задачи, как задачи с неполной информацией, являются сложными, и получение какой-либо дополнительной информации, очевидно, позволяет сократить рассматриваемое множество возможных решений.
При качественном анализе временных рядов [24, 25] кодирование значений наблюдаемой величины может осуществляться в некотором алфавите, например, (А, В, С, Б, Е, F), символами которого могут быть именованы полусегменты значений наблюдаемой величины в порядке их возрастания: А — имя полусегмента наименьших значений, F — наибольших. Поскольку фиксация наблюдений ведется в дискретном времени, описание значений временного ряда по именам полусегментов есть слово над алфавитом имен. Если наблюдаемый процесс характеризуется резкими выбросами значений наблюдаемой величины (до уровня F) относительно базального уровня (А, В) за один дискрет времени, равно как и резкими спадами (от F до В), то получаемые кодовые слова временного ряда не будут содержать подслов СБЕ и ЕБС. Если при этом исходные данные представляют собой под-слова — разрозненные фрагменты наблюдений, то задача реконструкции слова по подсловам есть задача восстановления всего описания временного ряда в предположении об особенностях его поведения.
Аналогичная ситуация возникает при реконструкции лог-файлов бизнес-процессов при наличии фрагментарной информации. При описании бизнес-процессов аппаратом теории графов [7] модель (граф бизнес-процесса) может быть представлена следующим образом: состояния процесса кодируются именованными вершинами, а переходы состояний — ребрами, отождествленными с этапами бизнес-процесса. Тогда запись конкретной реализации бизнес-процесса есть некоторое слово над алфавитом имен вершин, отражающее порядок перехода состояний. Если процесс физически
распределен между различными организациями и исполнителями, то, скорее всего, мы получим информацию о его полном прохождении в виде набора подслов. При этом запрещенные подслова могут быть интерпретированы как нарушения модели — регламента бизнес-процесса. Возникающая задача реконструкции без запрещенных подслов содержательно означает возможность полной реконструкции всего процесса, соответствующего теоретической модели.
Таким образом, представляет интерес подробное изучение различных вариантов задачи реконструкции слов по некоторому множеству подслов меньшей длины, интерпретируемых как множество последовательных фрагментов неизвестного слова. При этом интерес представляет как случай, когда реконструируемое слово не содержит заранее заданного запрещенного подслова, так и случай с наличием запрещенных подслов. Один из возможных вариантов решения этой задачи на основе подслов фиксированной длины в гипотезе сдвига один предложен в работах [26, 27]. Однако множество возможных реконструкций может быть достаточно велико и возникает задача о возможном сокращении числа претендентов на «правильное» реконструируемое слово. Мы хотим получить дополнительную информацию из исходного множества подслов, которая будет полезна при редукции полученного множества реконструкций. Речь идет о возможности восстановления и/или определения шаблона префикса и суффикса неизвестного слова, что в рамках процедуры редукции приведет к рассмотрению только тех слов, которые обладают полученными шаблонами префикса и суффикса. Именно эта задача и является предметом настоящей статьи.
1. Терминология и обозначения
Далее в тексте статьи будут использоваться следующие обозначения:
Е = Ц, s , ... sl} — алфавит, s¡ — г-ый символ алфавита;
— к-я декартова степень множества £ (множество к-элементных кортежей);
00
— ^ — транзитивное замыкание £ (множе-к=о
ство всех возможных кортежей);
м — слово (над алфавитом) — последовательность символов алфавита, при этом собственно символы алфавита есть слова по определению;
L(■) : L(C ) = Ж, где С с — множество кортежей, Ж — множество слов. Оператор L(•) есть оператор создания множества слов, состоящих из символов алфавита £, действующий на множество кортежей;
а. — г-ый символ слова м, а. е Е;
м = а1 а2 ...апе — произвольное слово из п
символов над алфавитом
|м| = п — длина слова, определяемая как число элементов в порождающем кортеже;
Ьк= Ь(ък^ = \у>\\м)\=к} — множество всех слов длины к над алфавитом £.
Пусть м = а1 а2 ...апе Ь(2"), тогда при к < п : V = а^а12„.а1к,1 <г2 = ^ +1, г*= г'^ +\<п — подслово слова м длины к;
Q(w, г, к) — оператор выделения подслова длины к в слове м, начиная с символа в позиции г. Пусть |м| = п, тогда оператор определен при г + к — 1 < п
Q(a. а. ... а , г, к) = а.а. ... а.^, ,,
12 п' ' 7 г г+1 г + к — 1'
Q(w, г, к) е Lk;
Для следующих двух операторов полагаем, что |м| = п > 2 и 1 < к < п:
Дм, к) = Q(w, 1, к) = а1 а2 ... ак е Lk — префикс длины к слова м;
^(м, к) = Q(w, п — к + 1, к) = ап - к + 1 ... ап е Lk - суффикс длины к слова м;
SH1(w, к) — оператор сдвига один. Определенный при |м| > к оператор порождает мультимножество подслов длины к мощности |м| > к + 1, выполняя сдвиг на единицу окна длины к по слову м, начиная с крайней левой позиции слова м:
Sm(w, к) = {у. | j = 1, М — к + 1; V. = Q(w, г, к)}.
2. Постановка задачи
В дальнейшем мы считаем заданными: длину подслова — к, число подслов — т, а также исходное мультимножество подслов V над алфавитом Е, рассматриваемое как базис реконструкции некоторого неизвестного слова ж
V = {у,. | / = 1,1»; у, = айа12...а1к е14|.
Принимаемая авторами гипотеза сдвига один состоит в том, что мы рассматриваем Vкак мультимножество подслов сдвига один относительного некоторого неизвестного слова м, при этом |м| = п = = т + к — 1:
у= БН\(у»,к) = {м.\] = \,п-к +1;= <2(М>,], к)}.
Содержательная постановка: В условиях гипотезы сдвига один относительно мультимножества V возможно ли определить префикс и суффикс длины к — 1 неизвестного слова н, или получить какую-либо содержательную информацию о его префиксе и суффиксе?
Математическая постановка: По данному мультимножеству V с длиной подслова к и числом подслов т определить префикс Р(н, к — 1) и суффикс S(w, к — 1) длины к — 1 исходного слова ц> = а1 а2 ...а, а также указать условия, при которых решение возможно.
3. Метод определения префикса и суффикса
Предварительно отметим, что основная проблема (и в аспекте задачи реконструкции, и в аспекте задачи определения суффикса и префикса) заключается в том, что нам исходно дано мультимножество подслов V, а не кортеж подслов. При этом основная трудность связана именно с потерей порядка на исходных подсловах, полученных оператором сдвига один.
Решение поставленной задачи начнем с построения матрицы А, состоящей из т строк и к столбцов, строками которой являются исходные слова V. из множества V. Слова из множества Vпредставимы в виде V. = а. аа, ... ак, и элементами матрицы А являются символы алфавита £ — А = (а.. ), где а.. — символ алфавита нау-й позиции в г-м слове мульитим-ножества Vв порядке их перечисления.
Запишем явно матрицу А в прямой последовательности окна сдвига один. Очевидно, что в реальности в порядке перечисления по мультимножеству Vмы будем наблюдать некоторую перестановку слов прямой последовательности, и, следовательно, соответственную перестановку строк матрицы А:
' V, Л
А =
V
\ т у
02,а3,...,ак+1
... (2 *' п
Содержательно решение поставленной задачи опирается на анализ соседних столбцов этой матрицы. Рассмотрим первый и второй столбцы. В
каждом из них при любой перестановке строк будет символ, стоящий на втором месте в неизвестном слове ц> — а2, и символ, стоящий на третьем месте — а3, и т.д. Если из этих двух столбцов вычеркнуть совпадающие пары символов, то останутся только символы а1 и ап _ к+ При условии, что они различны, мы получаем их конкретные значения. Если же а1 и ап _ к+ совпадают, то будут вычеркнуты все символы в этих столбцах, и мы получаем информацию о том, что в соответствующих позициях префикса и суффикса находятся неизвестные, но совпадающие символы. Такой анализ может быть продолжен для всех к — 1 пар соседних столбцов матрицы А. При условии, что после вычеркивания пар совпадающих символов у нас всегда остается не совпадающая пара, мы восстанавливаем префикс и суффикс длины к — 1 неизвестного слова н.
Опишем метод формально.
Введем в рассмотрение кортеж всех символов алфавита, для которого разрешены кратности элементов
при этом кратность 0 приводит к пустому множеству в данной позиции = 0. Определим оператор G действующий на 1-й столбец матрицы А и создающий кортеж С. , содержащий для всех символов алфавита их кратности в соответствии с числом символов, находящихся в этом столбце
Применим оператор G к двум столбцам матрицы А, и обозначим:
Введем в рассмотрение оператор получения символа GS, действующий на два кортежа столбцов матрицы А по следующему правилу:
в8(А,1,к) = •
еОСШ),
'=1 -
а^е СС(а,к),
■ 0, если - /3\ <0.
Теперь применим оператор GS к двум последовательным столбцам матрицы А. В силу описанной выше структуры последовательных столбцов матрицы А результатом оператора GS будет
или символ, или пустое множество. Отметим, что если GS(A, i + 1) ф 0, то и GS(A, i + 1, ') * 0. В этом случае мы определяем '-й символ префикса а. = GS(A, г, г + 1) и п — к + г'-й символ неизвестного слова ап _ к + .= GS(A, г'+1, ' ), который является г'-м символом суффикса длины к — 1.
Например, если GS(A, 1, 2) = s., то нам становится известен первый символ неизвестного слова w (первый символ префикса) — а1 = s.. В этой ситуации значение GS(A, 2, 1) обязательно не пусто. Пусть GS(A, 2, 1) = s , в результате мы получаем первый символ суффикса ап _ к+ = s. . Если же GS(A, 1, 2) * 0, то очевидно, что и ОБ(Л, 2, 1) = 0, и мы получаем информацию о том, что а1 = ап _ к + Однако при этом сам символ алфавита на этих позициях остается нам неизвестен.
Поскольку мы имеем к — 1 последовательных пар столбцов, то если для каждой последовательной пары столбцов оператор GS возвращает непустое множество, то используя операцию «+» для обозначения конкатенации символов, мы получаем решение:
Р(у>, к-1) =сцах... ак_, = /, / + 1),
¡=1
к-1) = ап_к+1... ап = / +1, /).
Если для каждой пары оператор GS возвращает пустое множество, то символы префикса и суффикса остаются неизвестными, но при этом мы получаем информацию об их равенстве как подслов:
Р^, к — 1) = S (w, к — 1).
В общем случае мы получаем информацию о символах префикса и суффикса в виде некоторого шаблона, причем если это конкретные символы, то они расположены в одинаковых позициях префикса и суффикса, а если символы не удается определить, то у нас есть информация о том, что на этих позициях символы префикса и суффикса совпадают.
Приведем пример для слова w = аЬЬаааЬЬ в алфавите £ = {а, Ь} и множества подслов, полученных оператором сдвига один с шириной окна, равной трем. При этом к =3, т = 6, п = 8, и матрица A имеет вид:
гаЬЪл ЪЪа
А=
Ъаа ааа ааЬ аЬЬ
Применение оператора G к трем столбцам матрицы A дает следующие кортежи:
ОС(А, 1) = С1 = (а(4), Ь(2)),
GC(A, 2) = С2 = (а(3), Ь(3)),
GC(A, 3) = С3 = (а(3), Ь(3)).
В результате мы получаем GC(A, 1, 2) = а, GC(A, 2, 1) = Ь, и GC(A, 2, 3) = <^С(А, 3, 2) = 0, и, тем самым, шаблоны префикса слова w = аЬЬаааЬЬ длины два Р^, 2) = а*и суффикса S(w, 2) = Ь*, где символ * обозначает неизвестный, но совпадающий символ в соответствующих позициях префикса и суффикса (на самом деле это символ «Ь»).
4. Применение к задаче реконструкции
В одной из предыдущих статей [26] авторы предложили решение задачи о полной реконструкции в условиях мультимножества подслов и гипотезы сдвига один. В ряде случаев число реконструкций, определяемых числом эйлеровых путей или циклов в соответствующем мультиорграфе де Брейна, может быть значительным [26].
Введем в рассмотрение множество возможных реконструкций слов по исходному множеству V
Ж={Н Н =т, к-\ =п, У=Бт(у>,к)},
при этом если | Ж | > 2, то реконструкция возможна и многозначна. Пусть w* — исходное, но неизвестное нам слово, по которому получено множество V= SH1(w*, к). Тогда при выборе из возможных реконструкций (т.е. из множества Ж) мы выбираем только те слова, которые обладают полученным оператором GS префиксом и суффиксом, с учетом шаблонов неизвестных символов:
Ж=
1=1
к-Х) = +
при этом гарантированно w е .
Это приводит к редукции полученного множества реконструкций, поскольку мы рассматриваем только те слова, которые обладают заданными шаблонами префикса и суффикса. Более того, этот подход можно применять не только для редукции
конечного множества реконструкций, а рассматривать префикс как шаблон выбора начальных дуг для эйлеровых путей в мультиорграфе де Брейна при построении реконструкции [26].
Заключение
В статье в аспекте решения задачи восстановления символьных описаний временных рядов и логов бизнес-процессов предложено решение задачи определения префикса и суффикса неизвестного слова. Решение основано на предположении о том, что исходно задано полное множество подслов фиксированной длины к, порожденное смещением окна длины к по неизвестному слову со сдвигом один. Получено решение, позволяющее получить информацию о префиксе и суффиксе неизвестного слова или некоторый шаблон для префикса и суффикса. Предложенное решение позволяет получить допол-
нительную информацию о возможных реконструкциях и тем самым сократить число возможных реконструкций слов по заданному множеству подслов. В лучшем случае предложенный метод позволяет определить префикс и суффикс длины к неизвестного слова, а в худшем случае — констатировать, что префикс и суффикс совпадают между собой.
Результаты могут быть использованы совместно с решением задачи реконструкции [26, 27] для редукции множества возможных реконструкций при качественном анализе в таких задачах бизнес-информатики, как анализ временных рядов и логов бизнес-процессов. ■
Благодарности
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-0700150.
Литература
1. Querying and mining of time series data: Experimental comparison of representations and distance measures / H. Ding [et al.] // Proceedings of the VLDB Endowment. 2008. Vol. 1. No 2. P. 1542-1552. DOI: 10.14778/1454159.1454226.
2. Kurbalija V., Radovanovic M., Geler Z., Ivanovic M. The influence of global constraints on DTW and LCS similarity measures for time-series databases // Advances in Intelligent and Soft Computing. 2011. Vol. 101. P. 67-74. DOI: 10.1007/978-3-642-23163-6_10.
3. Wu Y.-L., Agrawal D., el Abbadi A. A comparison of DFT and DWT based similarity search in time-series databases // Ninth International Conference on Information and Knowledge Management (CIKM '00), McLean, VA, 6-11 November 2000. P. 488-495.
4. Bemdt D.J., Clifford J. Using dynamic time warping to find patterns in time series // AAAI-94 Workshop on Knowledge Discovery in Databases. 1994. P. 359-370. [Электронный ресурс]: https://www.aaai.org/Papers/Workshops/1994/Ws-94-03/WS94-03-031.pdf (дата обращения 15.03.2020).
5. Dreyer W., Dittrich A.K., Schmidt D. Research perspectives for time series management systems // SIGMOD Record. 1994. Vol. 23. No 1. P. 10-15.
6. Keogh E.J., Pazzani M.J. An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback // Fourth International Conference on Knowledge Discovery and Data Mining (KDD'98), New York, 27-31 August 1998. P. 239-241.
7. Andersen B. Business processes improvement toolbox. New York: ASQ Quality Press, 1999.
8. Lin J., Keogh E., Wei L., Lonardi S. Experiencing SAX: A novel symbolic representation of time series // Data Mining and Knowledge Discovery. 2007. Vol. 15. No 2. P. 107-144. DOI: 10.1007/s10618-007-0064-z.
9. String reconstruction from substring compositions / J. Acharya [et al.] // SIAM Journal on Discrete Mathematics. 2014. Vol. 29. No 3. P. 1340-1371.
10. Reconstruction of sequences / B. Manvel [et al.] // Discrete Mathematics. 1991. Vol. 94. No 3. P. 209-219. DOI: 10.1016/0012-365X(91)90026-X.
11. Carpi A., de Luca A. Words and special factors // Theoretical Computer Science. 2001. Vol. 259. No 1-2. P. 145-182.
12. de Luca A. On the combinatorics of finite words // Theoretical Computer Science. 1999. Vol. 218. No 1. P. 13-39.
13. Dudk M., Schulman L.J. Reconstruction from subsequences // Journal of Combinatorial Theory. Series A. 2003. Vol. 103. No 2. P. 337-348. DOI: 10.1016/S0097-3165(03)00103-1.
14. Erdös P.L., Ligeti P., Sziklai P., Torney D.C. Subwords in reverse-complement order // Annals of Combinatorics. 2006. Vol. 10. No 4. P. 415-430. DOI: 10.1007/s00026-006-0297-3.
15. Fici G., Mignosi F., Restivo A., Sciortino M. Word assembly through minimal forbidden words // Theoretical Computer Science. 2006. Vol. 359. No 1-3. P. 214-230. DOI: 10.1016/j.tcs.2006.03.006.
16. Levenshtein V.I. Efficient reconstruction of sequences from their subsequences or supersequences // Journal of Combinatorial Theory, Series A. 2001. Vol. 93. P. 310-332.
17. Prna C., Uzdtegui C. Reconstruction of a word from a multiset of its factors // Theoretical Computer Science. 2008. Vol. 400. No 1-3. P. 70-83. DOI: 10.1016/j.tcs.2008.01.052.
18. Lothaire M. Algebraic combinatorics on words. Cambridge, UK: Cambridge University Press, 2002.
19. Gusfield D. Algorithms on strings, trees, and sequences: Computer science and computational biology. Cambridge, UK: Cambridge University Press, 1997.
20. Skiena S.S., Sundaram G. Reconstructing strings from substrings // Journal of Computational Biology. 1995. Vol. 2. No 2. P. 333—353.
21. Leont'ev V.K., Smetanin Y.G. Problems of Information on the set of words // Journal of Mathematical Sciences. 2002. Vol. 108. No 1. P. 49-70. DOI: 10.1023/A:1012705332306.
22. Левенштейн В.И. Восстановление объектов по минимальному числу искаженных образцов // Доклады РАН. 1997. Т. 354. № 5. С. 593-596.
23. Krasikov I., Roditty Y. Note: On a reconstruction problem for sequences // Journal of Combinatorial Theory. Series A. 1997. No 77. P. 344-348.
24. Ульянов М.В., Сметанин Ю.Г. Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний // Бизнес-информатика. 2013. № 2. С. 49-54.
25. Сметанин Ю.Г., Ульянов М.В. Мера символьного разнообразия: подход комбинаторики слов к определению обобщенных характеристик временных рядов // Бизнес-информатика. 2014. № 3. С. 40-46.
26. Smetanin Yu.G., Ulyanov M.V. Reconstruction of a word from a finite set of its subwords under the unit Shift hypothesis. I. Reconstruction without for bidden words // Cybernetics and Systems Analysis. 2014. Vol. 50. No 1. P. 148-156.
27. Smetanin Yu.G., Ulyanov M.V. Reconstruction of a word from a finite set of its subwords under the unit Shift hypothesis. II. Reconstruction with forbidden words // Cybernetics and Systems Analysis. 2015. Vol. 51. No 1. P. 157-164. DOI: 10.1007/s10559-015-9708-y.
Об авторах
Жукова Галина Николаевна
кандидат физико-математических наук;
доцент департамента программной инженерии, факультет компьютерных наук, Национальный исследовательский университет «Высшая школа экономики», 101000, г. Москва, ул. Мясницкая, д. 20; E-mail: galinanzhukova@gmail.com ORCID: 0000-0003-1835-7422
Сметанин Юрий Геннадиевич
доктор физико-математических наук:
главный научный сотрудник, Федеральный исследовательский центр «Информатика и управление» Российской академии наук, 119333, г. Москва, ул. Вавилова, д. 40; E-mail: smetanin.iury2011@yandex.ru ORCID: 0000-0003-0242-6972
Ульянов Михаил Васильевич
доктор технических наук, профессор;
ведущий научный сотрудник, Институт проблем управления им. В.А. Трапезникова Российской академии наук, 117997, г. Москва, ул. Профсоюзная, д. 65; E-mail: muljanov@mail.ru ORCID: 0000-0002-5784-9836
About the possibility of determining the prefix and suffix of a word by subwords of fixed length
Galina N. Zhukovaa
E-mail: galinanzhukova@gmail.com
Yuri G. Smetaninb
E-mail: smetanin.iury2011@yandex.ru
Mikhail V. Ulyanovc
E-mail: muljanov@mail.ru
a National Research University Higher School of Economics Address: 20, Myasnitskaya Street, Moscow 101000, Russia
b Federal Research Center "Computer Science and Control", Russian Academy of Sciences Address: 40, Vavilova Street, Moscow 119333, Russia
c Trapeznikov Institute of Control Sciences, Russian Academy of Sciences Address: 65, Profsoyuznaya Street, Moscow 117997, Russia
Abstract
In applied problems ofbusiness informatics related to data analysis (in particular, in the analysis and forecasting of time series, in the study oflog files ofbusiness processes, etc.), problems of qualitative analysis arise. Qualitative analysis methods often use symbolic coding as a way of presenting information about the processes under study. In a number of situations, due to the fragmentation of such descriptions, the problem arises of reconstructing a complete symbolic description of a process (word) from its successive fragments (subwords). From the multiset of all subwords of a sufficiently large length, the original word is uniquely restored. In the case of insufficiently long subwords, several different reconstructions of the original word are possible. The number of feasible reconstructions can be reduced by determining the suffix and prefix of the reconstructed word. A method is proposed for determining the prefix and suffix of a word consisting of k _ 1 symbols each on the basis of multiset V of subwords of a fixed length equal to k. We accept the hypothesis that this multiset is generated by a window of a fixed length k of one symbol shift in an unknown word. The method for determining the prefix and suffix is based on the construction and analysis of the matrix formed by subwords from F written in rows in arbitrary order and the use of the operator acting on multisets of characters of the alphabet formed by neighboring columns of this matrix. The method is capable of determining the prefix a1a2 ... ak_ 1 and suffix b1b2 ... bk_ 1, if a. ^ b. for any i from 1 to k _ 1. Ifin the prefix and suffix a.+b . only for some values of i, the characters in the corresponding p ositions are determined, and a. = b for the remaining characters. In the worst case, the method concludes that a. = b. for any i from 1 to k— 1, but does not determine the characters themselves. This is a situation in which the prefix and suffix coincide but cannot be determined.
Key words: word reconstruction; prefix; suffix; multiset of subwords; subwords of fixed length; shift operator.
Citation: Zhukova G.N., Smetanin Yu.G., Ulyanov M.Yu. (2020) About the possibility of determining the prefix
and suffix of a word by subwords of fixed length. Business Informatics, vol. 14, no 2, pp. 84—92.
DOI: 10.17323/2587-814X.2020.2.84.92
References
1. Ding H., Trajcevski G., Scheuermann P, Wang X., Keogh E. (2008) Querying and mining of time series data: Experimental comparison ofrepresentations and distance measures. Proceedings ofthe VLDB Endowment, vol. 1, no 2, pp. 1542—1552. DOI: 10.14778/1454159.1454226.
2. Kurbalija V., Radovanovií M., Geler Z., Ivanovié M. (2011) The influence of global constraints on DTW and LCS similarity measures for time-series databases. Advances in Intelligent and Soft Computing, vol. 101, pp. 67—74. DOI: 10.1007/978-3-642-23163-6_10.
3. Wu Y. -L., Agrawal D., el Abbadi A. (2000) A comparison of DFT and DWT based similarity search in time-series databases. Proceedings of the Ninth International Conference on Information and Knowledge Management (CIKM'00), McLean, VA, 6—11 November 2000, pp. 488—495.
4. Bemdt D.J., Clifford J. (1994) Using dynamic time warping to find patterns in time series. AAAI-94 Workshop on Knowledge Discovery in Databases, pp. 359-370. Available at: https://www.aaai.org/Papers/Workshops/1994/WS-94-03/WS94-03-031.pdf (accessed 15 March 2020).
5. Dreyer W., Dittrich A.K., Schmidt D. (1994) Research perspectives for time series management systems. SIGMOD Record, vol. 23, no 1, pp. 10-15.
6. Keogh E.J., Pazzani M.J. (1998) An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback. Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD'98), New York, 27—31 August 1998, pp. 239-241.
7. Andersen B. (1999) Business processes improvement toolbox. New York: ASQ Quality Press.
8. Lin J., Keogh E., Wei L., Lonardi S. (2007) Experiencing SAX: A novel symbolic representation of time series. Data Mining and Knowledge Discovery, vol. 15, no 2, pp. 107-144. DOI: 10.1007/s10618-007-0064-z.
9. Acharya J., Das H., Milenkovic O., Orlitsky A., Pan S. (2014) String reconstruction from substring compositions. SIAM Journal on Discrete Mathematics, vol. 29, no 3, pp. 1340-1371.
10. Manvel B., Meyerowitz A., Schwenk A., Smith K., Stockmeyer P (1991) Reconstruction of sequences. Discrete Mathematics, vol. 94, no 3, pp. 209-219. DOI: 10.1016/0012-365X(91)90026-X.
11. Carpi A., de Luca A. (2001) Words and special factors. Theoretical Computer Science, vol. 259, no 1-2, pp. 145-182.
12. de Luca A. (1999) On the combinatorics offinite words. Theoretical Computer Science, vol. 218, no 1, pp. 13-39.
13. Dudik M., Schulman L.J. (2003) Reconstruction from subsequences. Journal of Combinatorial Theory. Series A, vol. 103, no 2, pp. 337—348. DOI: 10.1016/S0097-3165(03)00103-1.
14. Erdjs PL., Ligeti P, Sziklai P., Torney D.C. (2006) Subwords in reverse-complement order. Annals of Combinatorics, vol. 10, no 4, pp. 415—430. DOI: 10.1007/s00026-006-0297-3.
15. Fici G., Mignosi F., Restivo A., Sciortino M. (2006) Word assembly through minimal forbidden words. Theoretical Computer Science, vol. 359, no 1-3, pp. 214-230. DOI: 10.1016/j.tcs.2006.03.006.
16. Levenshtein V.I. (2001) Efficient reconstruction of sequences from their subsequences or supersequences. Journal of Combinatorial Theory, Series A, Vol. 93, pp. 310-332.
17. Pffia C., Uzdtegui C. (2008) Reconstruction of a word from a multiset of its factors. Theoretical Computer Science, vol. 400, no 1-3, pp. 70-83. DOI: 10.1016/j.tcs.2008.01.052.
18. Lothaire M. (2002) Algebraic combinatorics on words. Cambridge, UK: Cambridge University Press.
19. Gusfield D. (1997) Algorithms on strings, trees, and sequences: Computer science and computational biology. Cambridge, UK: Cambridge University Press.
20. Skiena S.S., Sundaram G. (1995) Reconstructing strings from substrings. Journal of Computational Biology, vol. 2, no 2, pp. 333-353.
21. Leont'ev V.K., Smetanin Y.G. (2002) Problems of Information on the set ofwords. Journal of Mathematical Sciences, vol. 108, no 1, pp. 49-70. DOI: 10.1023/A1012705332306.
22. Levenshtein V.I. (1997) Restoring objects based on the minimum number of distorted samples. Doklady Akademii Nauk, vol. 354, no 5, pp. 593-596 (in Russian).
23. Krasikov I., Roditty Y. (1997) Note: On a reconstruction problem for sequences. Journal of Combinatorial Theory, Series A, no 77, pp. 344-348.
24. Ulyanov M.V., Smetanin Yu.G. (2013) Determining the characteristics of Kolmogorov complexity of time series: An approach based on symbolic descriptions. Business Informatics, no 2, pp. 49-54 (in Russian).
25. Smetanin Yu.G., Ulyanov M.V (2014) Measure of symbolical diversity: Combinatorics on words as an approach to identify generalized characteristics of time series. Business Informatics, no 3, pp. 40-46 (in Russian).
26. Smetanin Yu.G., Ulyanov M.V (2014) Reconstruction of a word from a finite set of its subwords under the unit Shift hypothesis. I. Reconstruction without for bidden words. Cybernetics and Systems Analysis, vol. 50, no 1, pp. 148-156.
27. Smetanin Yu.G., Ulyanov M.V (2015) Reconstruction of a word from a finite set of its subwords under the unit Shift hypothesis. II. Reconstruction with forbidden words. Cybernetics and Systems Analysis, vol. 51, no 1, pp. 157-164. DOI: 10.1007/s10559-015-9708-y
About the authors
Galina N. Zhukova
Cand. Sci. (Phys.-Math.);
Associate Professor, School of Software Engineering, Faculty of Computer Science,
National Research University Higher School of Economics,
20, Myasnitskaya Street, Moscow 101000, Russia;
E-mail: galinanzhukova@gmail.com
ORCID: 0000-0003-1835-7422
Yuri G. Smetanin
Dr. Sci. (Phys.-Math.);
Chief Researcher, Federal Research Center "Computer Science and Control", Russian Academy of Sciences, 40, Vavilova Street, Moscow 119333, Russia; E-mail: smetanin.iury2011@yandex.ru ORCID: 0000-0003-0242-6972
Mikhail V. Ulyanov
Dr. Sci. (Tech.);
Leading Researcher, Laboratory of Scheduling Theory and Discrete Optimization, V.A. Trapeznikov Institute of Control Sciences,
Russian Academy of Sciences,
65, Profsoyuznaya Street, Moscow 117997, Russia;
E-mail: muljanov@mail.ru
ORCID: 0000-0002-5784-9836