Научная статья на тему 'СВОЙСТВА МЕРЫ РАЗЛИЧИЯ ДВОИЧНЫХ ТЕСТОВЫХ НАБОРОВ УПРАВЛЯЕМЫХ ВЕРОЯТНОСТНЫХ ТЕСТОВ'

СВОЙСТВА МЕРЫ РАЗЛИЧИЯ ДВОИЧНЫХ ТЕСТОВЫХ НАБОРОВ УПРАВЛЯЕМЫХ ВЕРОЯТНОСТНЫХ ТЕСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
24
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕРА РАЗЛИЧИЯ / РАССТОЯНИЕ ХЭММИНГА / РАССТОЯНИЕ ЛЕВЕНШТЕЙНА / ТЕСТ / ТЕСТОВЫЙ НАБОР / УПРАВЛЯЕМЫЕ ВЕРОЯТНОСТНЫЕ ТЕСТЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ярмолик В. Н., Петровская В. В., Иванюк А. А.

Исследуется задача применения характеристик различия для двоичных тестовых последовательностей. Обосновывается их актуальность при генерировании управляемых вероятностных тестов. Рассматривается мера различия AD(Ti , Tk) между тестовыми наборами Ti и Tk, использующая характеристику расстояния D(ti,j , tk,r) между ti,j и tk,r, которая основана на определении независимых пар тождественных данных ti,j = tk,r, принадлежащих двум наборам Ti и Tk. Данная мера различия AD(Ti , Tk) позволяет оценить степень различия двух тестовых наборов Ti и Tk, которые могут быть неразличимыми при использовании других мер различия, в том числе и расстояния Хэмминга. Получены верхние и нижние оценки меры различия для случая инверсных тестовых наборов и произвольных тестовых наборов Ti и Tk с различным сочетанием их весов wi и wk. Приводятся примеры вычисления граничных значений указанной меры различия и соотношения их значений. Экспериментальные результаты подтверждают корректность полученных граничных значений указанной меры различия AD(Ti , Tk) и показывают возможность их применения для ее оценки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DISSIMILARITY MEASURE PROPERTIES OF BINARY TEST PATTERNS OF CONTROLLED RANDOM TESTS

The problem of application of the dissimilarity measures for binary test sequences is investigated. Their relevance in generating controlled random tests is substantiated. Dissimilarity measure AD(Ti , Tk) between test sets Ti and Tk is considered, using the characteristic of the distance D(ti,j , tk,r) between ti,j and tk,r, which is based on the determination of independent pairs of identical data ti,j = tk,r belonging to two patterns Ti and Tk. This measure AD(Ti , Tk) allows us to estimate the degree of difference between two test sets Ti and Tk, which may be indistinguishable when using other difference measures, including the Hamming distance. Upper and lower estimates for the measurement of dissimilarity are obtained for the case of inverse test patterns and arbitrary test patterns Ti and Tk with different combinations of their weights wi and wk. Examples of calculating the boundary values of the specified dissimilarity measure and the ratio of their values are given. Experimental results confirm the correctness of the obtained boundary values of the indicated dissimilarity measure AD(Ti , Tk) and show the possibility of their application for its evaluation.

Текст научной работы на тему «СВОЙСТВА МЕРЫ РАЗЛИЧИЯ ДВОИЧНЫХ ТЕСТОВЫХ НАБОРОВ УПРАВЛЯЕМЫХ ВЕРОЯТНОСТНЫХ ТЕСТОВ»

http://dx.doi.org/10.35596/1729-7648-2023-21-2-86-94

Оригинальная статья Original paper

УДК 004.415.533

СВОЙСТВА МЕРЫ РАЗЛИЧИЯ ДВОИЧНЫХ ТЕСТОВЫХ НАБОРОВ УПРАВЛЯЕМЫХ ВЕРОЯТНОСТНЫХ ТЕСТОВ

В. Н. ЯРМОЛИК, В. В. ПЕТРОВСКАЯ, А. А. ИВАНЮК

Белорусский государственный университет информатики и радиоэлектроники (г. Минск, Республика Беларусь)

Поступила в редакцию 23.11.2022

© Белорусский государственный университет информатики и радиоэлектроники, 2023 Belarusian State University of Informatics and Radioelectronics, 2023

Аннотация. Исследуется задача применения характеристик различия для двоичных тестовых последовательностей. Обосновывается их актуальность при генерировании управляемых вероятностных тестов. Рассматривается мера различия AD(Ti, Tk) между тестовыми наборами Ti и Tk, использующая характеристику расстояния D(tij, tkr) между ti]- и tkr, которая основана на определении независимых пар тождественных данных tij = tkr, принадлежащих двум наборам T и Tk. Данная мера различия AD(Ti, Tk) позволяет оценить степень различия двух тестовых наборов Ti и Tk, которые могут быть неразличимыми при использовании других мер различия, в том числе и расстояния Хэмминга. Получены верхние и нижние оценки меры различия для случая инверсных тестовых наборов и произвольных тестовых наборов Ti и Tk с различным сочетанием их весов wi и wk. Приводятся примеры вычисления граничных значений указанной меры различия и соотношения их значений. Экспериментальные результаты подтверждают корректность полученных граничных значений указанной меры различия AD(Ti, Tk) и показывают возможность их применения для ее оценки.

Ключевые слова: мера различия, расстояние Хэмминга, расстояние Левенштейна, тест, тестовый набор, управляемые вероятностные тесты.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Для цитирования. Ярмолик, В. Н. Свойства меры различия двоичных тестовых наборов управляемых вероятностных тестов / В. Н. Ярмолик, В. В. Петровская, А. А. Иванюк // Доклады БГУИР. 2023. Т. 21, .№ 2. С. 86-94. http://dx.doi.org/10.35596/1729-7648-2023-21-2-86-94.

DISSIMILARITY MEASURE PROPERTIES OF BINARY TEST PATTERNS OF CONTROLLED RANDOM TESTS

VYACHESLAV N. YARMOLIK, VITA V. PETROVSKAYA, ALEXANDER A. IVANIUK

Belarusian State University of Informatics and Radioelectronics (Minsk, Republic of Belarus)

Submitted 23.11.2022

Abstract. The problem of application of the dissimilarity measures for binary test sequences is investigated. Their relevance in generating controlled random tests is substantiated. Dissimilarity measure AD(Ti, Tk) between test sets T and Tk is considered, using the characteristic of the distance D(tiJ-, tkr) between tiJ- and tkr, which is based on the determination of independent pairs of identical data tiJ = tkr belonging to two patterns Ti and Tk. This measure AD(Ti, Tk) allows us to estimate the degree of difference between two test sets T and Tk, which may be indistinguishable when using other difference measures, including the Hamming distance. Upper and lower estimates for the measurement of dissimilarity are obtained for the case of inverse test patterns and arbitrary test

patterns T, and Tk with different combinations of their weights wi and wk. Examples of calculating the boundary values of the specified dissimilarity measure and the ratio of their values are given. Experimental results confirm the correctness of the obtained boundary values of the indicated dissimilarity measure AD(T, Tk) and show the possibility of their application for its evaluation.

Keywords: dissimilarity measure, Hamming distance, Levenshtein distance, test, test pattern, controlled random Conflict of interests. The authors declare no conflict of interests.

For citation. Yarmolik V N., Petrovskaya V. V., Ivaniuk A. A. (2023) Dissimilarity Measure Properties of Binary Test Patterns of Controlled Random Tests. Doklady BGUIR. 21 (2), 86-94. http://dx.doi.org/10.35596/1729-7648-2023-21-2-86-94 (in Russian).

Введение

Основная задача управляемого вероятностного тестирования состоит в нахождении меры различия тестовых наборов, которая максимально полно показывает их отличие и характеризуется невысокой вычислительной сложностью [1-3]. Определение меры различия тестовых наборов, в общем случае представляющих собой символьные последовательности, в свою очередь, сводится к задаче их сравнения [4].

В [5] рассматривается мера различия (dissimilarity) конечных последовательностей T = ti0, tj-д, ..., tin—1 как объектов, представляющих упорядоченные тестовые наборы T из n данных (элементов) некоторого множества произвольной природы. Основой для построения меры различия AD(Th Tk) является характеристика интервала, используемая в теории строя, которая применяется для формального описания и анализа последовательностей данных (символов) для любого алфавита [6]. Данная характеристика интервала была использована для определения меры различия или степени несовпадения двух тестовых наборов, показывая их удаленность либо близость друг от друга [7]. В общем случае, для тестовых наборов T и Tk, каждый из которых состоит из ni и nk данных t^, je{0, 1, ..., ni - 1}, и tk,r, re{0, 1, ..., nk - 1}, интервалом для пары совпадающих данных tj = tk,r является значение расстояния D(tj, tk,r) между tj и tk,r. Для вычисления величины расстояния D(tij-, tkr) первоначально определяются значения j — r| и max(ni, nk) — j — r|. Минимальное значение из приведенных величин принимается в качестве расстояния, т. е. D(tj, tk,r) = min[j — r|, max(n,, nk) — j — r|]. Для случая тестовых данных, когда n = n, = nk, расстояние D(tij-, tk,r) определяется соотношением min[j — r|, n — j — r|]. Как отмечалось ранее, подобная оценка расстояния необходима для синтеза управляемых вероятностных тестов, когда очередной тестовый набор формируется максимально удаленным от ранее сгенерированных наборов. Формально эта характеристика, описанная в [7], для случая двоичных тестовых наборов одинаковой размерности n соответствует следующему определению.

Определение 1. Мера различия AD(T, Tk) тестовых наборов T и Tk, каждый из которых состоит из n данных ty, tk,r е {0, 1}, где j, r е {0, 1, ..., n - 1}, основана на определении независимых пар одинаковых (тождественных) данных tj = tkr, принадлежащих двум наборам. Независимость пар означает участие каждого значения данных tj и tkr тестовых наборов T и Tk только в одной паре. Процедура формирования подобных пар носит комбинаторный характер и заключается в нахождении такого их сочетания, для которого сумма их расстояний D(tj, tkr) минимальна. При отсутствии пары для очередного значения данных ti,j в наборе Tk разность величин индексов, т. е. расстояние D(tijj, -) принимает значение |n /2j. Показано, что приведенная мера различия AD(Ti, Tk) тестовых наборов T и Tk удовлетворяет требованиям: тождественности (AD(T, Tk) = 0, если Tk = T), неотрицательности (AD(Ti, Tk) > 0) и симметричности (AD(Ti, Tk) = AD(Tk, T)) [5, 8].

Согласно уточненному определению меры различия для случая двоичных данных одинаковой размерности, выделяется два подмножества пар данных [7]. К первому относятся пары совпадающих данных tj = tkr, для которых стоит задача определения оптимального их распределения между парами для минимизации суммы расстояний между ними. Количество таких пар определяется соотношением Qe = n + min[w(Ti), w(Tk)] - max[w(T), w(Tk)], где w(Ti) является весом (количеством единиц) двоичного вектора T. Второе подмножество содержит Qn = max[w(Ti), w(Tk)] - min[w(Ti), w(Tk)] произвольных пар несовпадающих данных tj Ф tkr, для которых D(tj, tkr) = [n / 2j . Для тестовых наборов T и Tk двоичных данных tj и tk,r справедливо следующее утверждение.

Утверждение 1. Для пары совпадающих данных tj = tkr с расстоянием D(tiJ-, tk,r) Ф 0 всегда существует пара tir = tkJ данных с расстоянием D(tir, tkj) = D(ty, tk,r). Справедливость данного утверждения следует из того, что если tj = tkr образуют пару с D(ty, tk,r) Ф 0, то tj Ф tkJ и tir Ф tk,r. Соответственно при tj = tkr = 0 существует пара tkJ = t,r = 1, либо, наоборот, при tj = tkr = 1 имеем пару tkj = t,,r = 0.

Мера различия AD(T, Tk) позволяет оценить степень различия двух тестовых наборов T и Tk, которые могут быть неразличимыми при использовании других мер различия. В качестве иллюстрации данного утверждения рассмотрим пример двоичных наборов, второй Tk из которых является инверсией первого T. Для подобных наборов T и Tk = T расстояние Хэмминга HD , T^ всегда неизменно и равняется п. В то же время характеристика AD(T,T ) принимает различные значения в зависимости от веса w(T) исходного набора T, а также от взаимного расположения в нем данных ti0, tu, ..., tin-1, входящих в данный набор. Например, для случая двоичных данных, входящих в набор T, и различных значений веса w(T) характеристика AD( T,T) принимает следующие значения: AD(10000000, 01111111) = 26, AD(11000000, 0011111l) = 20, AD(11100000, 00011111) = 18 и AD(11110000, 00001111) = 16. В качестве второго примера рассмотрим случай двоичных наборов той же размерности n = 8, когда первый набор Ti имеет постоянный вес, предположим, w(T) = 4. Соответственно имеем: AD(11110000, 00001111) = 16, AD(11101000, 00010111) = 12 и AD(n001100, 00110011) = 8. Расстояние Хэмминга во всех рассмотренных выше примерах равняется 8, что свидетельствует об одинаковом максимальном отличии всех рассмотренных пар наборов T,Ti в терминах указанной меры различия.

Мера различия AD(T, Tk) для инверсных тестовых наборов T и Tk = Tt

Исследуем характеристику AD(T,Ti) в зависимости от значения веса w(T), представляющего собой количество единичных данных в исходном наборе T. Как иллюстрируют приведенные выше примеры, взаимное расположение данных в сильной мере влияет на величину характеристики AD(T,Ti). Первоначально рассмотрим исходный набор T с весом w = w(T) < |n / 2j, в котором все w единиц сгруппированы в виде одной серии. В общем виде набор T принимает

вид Ti = ti,0, ..., ti,l-1, ti,h ti,l+1, t¡,l+2, ..., ti,l+w-3, ti,l+w-2, tjJ,+w—\, ti,l+w, ti,l+w+1, ti,l+w+2, ti,n-1 =

= 0 ... 0 0 1 1 ... 1 1 1 1 0 0 ... 0 и, соответственно, Tk = T = tkfi, ..., t^-i, tk,b tkm, tkm, ..., t^+w-з, tk,i+w-2, tki+w-1, tk,i+w, tk,i+w+1, tk,i+w+2, ..., tk,n-1 = 1 . 1 1 0 0 ... 0 0 0 0 1 1 ... 1. В соответствии с Определением 1 оптимальное сочетание пар совпадающих данных наборов T и Tk = T для вычисления величины характеристики AD(T, Tk) имеет вид {(t^, tw), (ta, tk,m), (t^+w, ty+w+1), (ti,i+w+i, tk,i+w), (ti,i+2, tk,i-i), (ti,i-1, tki+2), (ti,i+w-i, tk+w+2), (ti,i+w+2, tk,i+w-i), . • } и представлено на рис. 1. Графически пары совпадающих данных показаны сплошными линиями с двусторонними стрелками, а несовпадающие пары - пунктирными линиями (рис. 1).

Ti 0

А

V

тк 1

Dit^tkH) d ... 3 1 1 3 ... 7 5 3 1 1 3 5 7 ... d

Рис. 1. Оптимальное сочетание пар совпадающих данных наборов^ и Tk = T для одной серии из единиц

Fig. 1. Optimal combination of matching data set pairs T and Tk = Tt for single series of ones values case

Общее количество пар совпадающих и несовпадающих двоичных данных в наборах Ti и Tk определяется величинами Qe и Qn [7]. В случае, когда Tk = T, учитывается свойство симметричности (AD(T,Ti) = AD(T,T)) данной метрики и принимается ограничение w = w(T) < |_n /2J, количество совпадающих пар данных равняется 2w, а несовпадающих - (n - 2w).

Регулярность серии из w единиц в наборе Ti и соответствующей ей серии из нулей в наборе Tk = T, как это видно из рис. 1, позволяет формализовать вычисление характеристики AD(Ti, Tk).

001

0000

110 0

0 0 0 0 1 1

о

А

V 1

Слагаемыми для вычисления данной метрики являются расстояния между совпадающими данными, которые принимают следующие значения: D(t,,i+b tkJ) = D(thh tk+) = D(t,j+W, tKi+w+i) =

= D(ti,l+w+l, tk,l+w) = 1 tk,l-1) = D(ti,l-b tk,l+2) = D(ti,l+w-b tk,l+w+2) = D(ti,l+w+2, tk,l+w-1) = 3 и так

далее для последующих пар совпадающих значений данных в наборах. Значения расстояний D(tis, tkh) приведены на рис. 1 для s, h е{0, 1, 2, ..., n - 1}. В зависимости от величины веса w максимальное значение расстояния для серии, состоящей из единиц, принимают расстояния

^i^w^ tk,l—w/2+1) = D(ti,l-w/2+1, tk, l+w/2) = D(ti,l+w/2+b tk,l+w+w/2) = D(ti,l+w+w/2, tk,l+w/2+1) = w - 1 для четырех пар данных при четных w, и двух пар D(tlMw+1)/2, tk,l-(w+1)/2+1) = D(tuHw+1)/2+1, tk,l+(w+1)/2) = w в противном случае. Для остальных (n - 2w) пар несовпадающих данных в наборах T и Tk = T, согласно Определению 1, расстояние принимается равным [n / 2j, которое на рис. 1 обозначено символом d [7]. Окончательно выражение для характеристики AD(Ti,Ti), где w = w(Ti) < |_n / 2j, а все единичные данные набора T расположены последовательно в виде серии из w единиц, принимает вид

_ Lw/2j

AD(T,T) = [n /2j-(n - 2w) + 2w(w - 2|_w/2j) + 4 £ (2v -1) =

V=1

= w2 + (w - 2 L w /2_|) + |_n /2 _|-(n - 2 w). (1)

Выражение (1) справедливо только для набора T веса w, когда все w единичные данные расположены в виде одной серии. Для оценки меры различия AD( T,T ) при отсутствии ограничений на вид произвольного набора Ti приведем следующее утверждение.

Утверждение 2. Максимальное значение maxAD(T,Ti) меры различия AD(T,Ti), где w = w(Ti), равняется w2 + (w-2_w/2_) + _n/2_-(n-2w). Учитывая, что для меры различия AD(T,Ti) тестовых наборов T и Tk = T выполняется требование симметричности (AD(Tt,Ti) = = AD(T,Ti)), будем рассматривать случай, когда w = w(Tl) < \_n / 2J. Как было показано ранее для T с весом w = w(Tl) < [n / 2j, в котором w единиц представлены в виде серии, AD( T,T) = = w2 + (w- 2[w/ 2J) + [n /2J • (n - 2w). Рассмотрим процедуру перехода от набора Ti, в котором все w единиц сгруппированы в виде одной серии, к набору с тем же весом w, но с большим количеством единичных серий. Первоначально исследуем Ti, в котором w единичных значений сгруппированы в виде двух серий, разделенных одним нулевым значением, как это показано на рис. 2.

Ti о Л

I

V

Tk 1

D(ti„tkH) d ... 3 1 1 3 ... 7 5 1 1 1 1 5 J7 ... d

Рис. 2. Оптимальное сочетание пар совпадающих данных наборов Ti и Tk = Ti для двух серий из единиц Fig. 2. Optimal combination of matching data set pairs T and Tk = Tt for two series of ones values

В силу симметрии пар совпадающих данных ty = tkr рассмотрим только единичные значения ty, так как аналогичные рассуждения будут верны и для ty = 0, что следует из Утверждения 1. Построение двух серий из последовательных единичных значений ty = 1 на основании одной серии, состоящей из w единиц, заключается во внесении в эту серию нулевого значения ty, как это показано на рис. 2. Соответственно в ту же позицию в набор Tk = T вносится единичное значение. Для примера, приведенного на рис. 2, имеем T = 0.001 1 ... 1 101 10.0 и Tk = 1 ... 1 1 0 0 ... 0 0 1 0 0 1 ... 1. В результате пара (til+w-1, tkl+w+2) идентичных данных ti,l+w-i = tk,l+w+2 = 1, для которых D(ti,l+w-i, tkl+w+2) = 3, преобразовалась в пару (t^, ty+w-1), которая имеет расстояние D(til+w, tkl+w-1) = 1, т. е. в пару с меньшим расстоянием. Остальные пары единичных данных остались без изменений, так же, как и соответствующие им расстояния. В результате значение характеристики AD(T,Ti) уменьшилось. Таким образом, можно заключить,

0011... 11011000 ... о

... 1 1 О О ... О О 1 О О 1 1 1 ... 1

что преобразование набора Т , для которого w = w(TI) и все w единиц сгруппированы в виде одной серии, к набору с тем же весом w, но уже с двумя единичными сериями, приводит к тому, что значение AD( Т,Т ) не увеличивается. Продолжая подобную процедуру разбиения на серии из единичных значений, можно отметить, что характеристика AD( Т ,Т) полученных таким образом наборов не будет увеличиваться. Отсюда следует, что maxAD( Т ,Т) вычисляется согласно (1) и равняется величине, определяемой выражением н>2 + {-2/ 2|) + [п /2| - {п -2w).

Утверждение 3. Минимальное значение minAD(Т,Т) меры различия AD(Т,Т), где Тк = Т и w = w(T), равняется 2w + |п /2^ (п - 2w). Для получения минимальной оценки меры различия AD( Т ,Т) рассмотрим минимальные значения слагаемых, участвующих в ее вычислении, т. е. расстояний D(tij, кг) для наборов Т и Т • В силу того, что набор Тк является инверсным по отношению к Т, не существует пар идентичных данных tij = tkr, для которых D(tij, ^,г) = 0. Минимально возможное значение расстояния D(tij, %,г) равняется 1, таким образом, w пар единичных данных и столько же нулевых (Утверждение 1) данных будут принимать минимальные значения расстояний, равные 1, а остальные (п - 2w) несовпадающие пары имеют расстояние |_п / 2]. Окончательно получим minAD(Т, Т ) = 2w + |п/ 2(п-2w).

Мера различия АВ(Т, Тк) для произвольных двоичных тестовых наборов Т и Тк

Для произвольных двоичных тестовых наборов Т и Тк минимальное значение меры различия minAD(Ti, Тк) = 0, которое достигается при Т i = Тк и вытекает из ее свойства тождественности [7]. Максимальное различие достигается, только когда наборы состоят из различных несовпадающих данных, т. е. Т = 0 0 ... 0 0 0, аТк = 1 1 ... 1 1 1, либо, наоборот, Т = 1 1 ... 1 1 1, аТк = 0 0 ... 0 0 0. В результате maxAD(Ti, Тк) = п \_п /2].

В общем случае двоичные тестовые наборы различаются по их весу w i = w(Ti) и wk: = w(Tk) и позволяют определять количество Qe совпадающих пар данных tij = tkr и количество Qn пар несовпадающих данных tij Ф tkr. Конкретные соотношения весов wi = w(Ti) и Wk = w(Tk) и их значения позволяют уточнить оценки максимального и минимального значений меры различия AD(Ti, Тк). Величины этих оценок могут уменьшить вычислительную сложность определения AD(Ti, Тк) либо вообще исключить необходимость ее вычисления. Поясним это утверждение на простейшем примере. Имеем два набора, для которых, например, w(Ti) = 1 и w(Tk) = п - 1, и, соответственно, minAD(T, Тк) = (п - 2) • [п /2], а maxAD(TI, Тк) = 2 + (п - 2) • |п /2]. Как видно, в данном случае minAD(TI, Тк) и maxAD(TI, Тк) практически не отличаются и имеют большие значения. Это означает, что независимо от распределения данных в обоих наборах Т и Тк с весами w(TI) = 1 и w(Tk) = п - 1 указанные наборы имеют большое различие и не требуют точного вычисления AD(Ti, Тк). Первоначально оценим minAD(TI, Тк).

Утверждение 4. Минимальное значение minAD(Ti, Тк) меры различия AD(Ti, Тк) запишется как Qn _п / 2\- тах(мл, м>к) ■ _п / 21 - тт(м^, wk) ■ _п / 21. Значение minAD(TI, Тк) достигается в том случае, когда для всех Qe = п + тт^, wk) - max(w, wk) пар совпадающих данных D(tij, tk,r) = 0. Тогда minAD(T, Тк) = Qe • 0 + Qn ^п / 2\. Для ранее рассмотренного примера наборов Т и Тк с весами w(Ti) = 1 и w(Tk) = п - 1 при п = 8 указанное minAD(TI, Тк) = 24 достигается в случае, когда, например, Т, = 1 0 0 0 0 0 0 0, аТк = 1 1 1 1 1 1 1 0.

Утверждение 5. Максимальное значение maxAD(TI, Тк) меры различия AD(Ti, Тк) запишется в виде (wк - wi) • |_я /2] + 2 \(п - wk) / 2] • [wi / 2] + 2|_(п - wk) / 2] • |_wi / 2], где w , = w(Ti) < Wk = w(Tk) и wi< п - Wk. Первоначально сформулируем условия и ограничения для получения оценки максимального значения AD(Ti, Тк) в случае произвольных наборов Т i и Тк с весами w i = w(TI) и Wk=w(Tk). Отметим, что, основываясь на Утверждении 1, задачу вычисления характеристики AD(Ti, Тк) для Т1 и Тк можно рассматривать как задачу вычисления этой же характеристики для инверсных значений наборов Т и Тк. Кроме того, принимая во внимание свойство симметрии AD(Ti, Тк), будем рассматривать случай, когда w i < wk. Таким образом, при любом сочетании значений весов w i и Wk наборов Т! и Тк вычисление значения AD(Ti, Тк) можно свести к задаче вычисления данной характеристики для случаев, когда ^ 1 < wk и w ¡< п - Wk•

Первоначально рассмотрим наборы Т и Тк, когда все wi единиц в Т и все wk единиц в Тк расположены в виде одной серии. Предположим, что первые w j значений данных tij набора Т ! и первые Wk

данных tkr набора Tk принимают единичные значения, подобно как для случаев Tt = 1 1 0 0 0 0 0 0 и Tk = 1 1 1 1 0 0 0 0. Взаимное расположение единичных серий в наборах Tt и Tk будет определять значение характеристики AD(T, Tk). Так, для T = 1 1 0 0 0 0 0 0 и Tk = 1 1 1 1 0 0 0 0 имеем AD(T, Tk) = 8. Такое же значение будет для Tj и Tk наборов: {0 1 1 0 0 0 0 0, 1 1 1 1 0 0 0 0}; {0 0 1 1 0 0 0 0, 1 1 1 1 0 0 0 0}. В то же время максимальное значение AD(T , Tk) = 16 достигается для T = 1 1 1 1 0 0 0 0 и Tk = 0 0 0 0 0 1 1 0. В общем случае существует n взаимных расположений единичных серий наборов T и Tk. В качестве примера все возможные значения величин AD(T , Tk) для различного взаимного расположения единичных серий наборов T = 1 1 0 0 0 0 0 0 и Tk = 1 1 0 0 0 0 1 1 приведены в табл. 1.

Таблица 1. Значения характеристики AD(Tb Tk) для T = 1 1 0 0 0 0 0 0 и Tk = 1 1 0 0 0 0 1 1 Table 1. Values of characteristic AD(Tj, Tk) for T = 1 1 0 0 0 0 0 0 and Tk = 1 1 0 0 0 0 1 1

AD(T, Tk) 8 12 16 16 16 12 8 8

T 11000000 01100000 00110000 00011000 00001100 00000110 00000011 10000001

Tk 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011

Рассматривая наборы Т и Тк с принятыми ранее ограничениями как циклические наборы данных, можно отметить наличие в них по одной серии из единиц и одной серии из нулей. В наборе Т имеем серию из wi единиц и серию из (п - w) нулей, а в наборе Тк - серию из wk единиц и серию из (п - Wk) нулей соответственно. Взаимное расположение этих серий и определяет величину AD(Ti, Тк). Анализ рассмотренного выше примера и данных, приведенных в табл. 1, показывает, что максимальное значение характеристики AD(Ti, Тк) для наборов Т и Тк достигается при максимальном удалении единичной серии набора Т от единичной серии набора Тк. Либо, что есть то же самое, при симметричном расположении единичной серии из wi единиц набора Т по отношению к нулевой серии из (п - Wk) нулей набора Тк. Отметим, что, согласно принятым ограничениям, wi < (п - Wk). Для четных значений wi = 2 и (п - Wk) = 4 в примере, представленном в табл. 1, AD(Ti, Тк) принимает максимальное значение 16. Для произвольных значений величин п, wi и (п - Wk) схема оптимального сочетания пар для вычисления AD(Ti, Тк) в соответствии с Определением 1 приведена на рис. 3.

0 dl dl... dl dl...dl dl 0 ... 0 di...di di d... d

Рис. 3. Оптимальное сочетание пар совпадающих данных наборов T и Tk Fig. 3. Optimal combination of matching data set pairs T and Tk

Аналогично, как и на рис. 1, пары совпадающих данных показаны сплошными линиями с двусторонними стрелками, а несовпадающие пары - пунктирными линиями. Общая схема сочетаний пар данных, представленных на рис. 3, позволяет получить выражение для вычисления maxAD(T, Tk). Количество пар несовпадающих двоичных данных в наборах T и Tk, как было показано ранее, запишется как w(Tk) - w(T) = wk - w, для которых, согласно Определению 1, D(tis, tk,h) = _n /2j. Пары совпадающих данных могут иметь три возможных значения. Во-первых, (n - wk - w) пар будут иметь нулевое расстояние D(tis, tk,h) = 0. Далее, как видно из схемы пар данных на рис. 3, расстояние D(tis, tk,h) = d1 = [(n - wk)/ 2] имеет 2|~w; / 2] пары идентичных данных, а расстояние D(tis, tk,h) = d2 = |_(n - wk) / 2J соответствует 2|_w; / 2J парам. Окончательно maxAD(T,Tk) = (wk - wt) -|_n /2J + 2\(n - Wk)/2\\wt /2] + 2|_(n - Wk)/2j-|w /2j. Отметим, что для вычисления maxAD(T, Tk) возможно альтернативное оптимальное сочета-

ние пар совпадающих данных, аналогичное сочетанию, представленному на рис. 1. В обоих случаях результат одинаков. Для примера наборов Т и Тк с w(T) = 1 и ^Т) = п - 1 при п = 8 значение maxAD(T, Тк) = 26 достигается в случае, когда, например, Ti = 0 0 0 0 1 0 0 0, а Тк = 1 1 1 1 0 1 1 1. Аналогично, как и для случая инверсных наборов, можно показать, что преобразование наборов Т и Тк, для которых все wi и единиц сгруппированы в виде серии, к наборам с теми же весами wi и но уже с большим числом единичных серий, приводит к тому, что значение AD(T1, Тк) не увеличивается. Соответственно получим, что maxAD(Ti, Тк) = = - ^)-\п/2 ] + 2\(п - wk /21 + 2 |_(п - ^ )/2\-\ ^/2].

Экспериментальные результаты

Для проверки правильности полученных теоретических результатов провели эксперименты для вычисления меры различия AD(Ti, Тк) согласно Определению 1. В качестве метода вычисления данной характеристики использовали Венгерский алгоритм, применяемый для решения задачи о назначениях [7]. Результаты, показывающие корректность Утверждений 2 и 3, приведены в табл. 2, где представлены максимальные и минимальные значения данной меры AD( Т ,Т), полученные для большого числа наборов Т с различными значениями w для разных п.

Таблица 2. Значения minAD(Tt,Tt) и maxAD(Tt,Tt) для различных n Table 2. Values of minAD( Ti, T) and maxAD( Ti, T) for various n

n w maxAD( Tt ,Tt) minAD( T ) Количество наборов Tj

8 3 18 14 56

4 16 8 70

9 3 22 18 84

4 20 12 126

16 3 90 86 560

4 80 72 1820

7 66 30 11 440

8 64 16 12 870

32 3 426 422 4960

4 400 392 30 000

10 292 212 100 000

11 282 182 100 000

Справедливость теоретических результатов, сформулированных в Утверждениях 4 и 5 для произвольных тестовых наборов Т и Тк, подтверждают данные, приведенные в табл. 3.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 3. Значения меры различия AD(Tj, Tk) для произвольных наборов Tj и Tk Table 3. Values of dissimilarity measure AD(Tj, Tk) for arbitrary patterns T and Tk

n wi wk maxAD(Tj, Tk) minAD(Tj, Tk) avAD(Tj, Tk) Количество пар наборов Т и Тк с весами w¡ и wk

1 3 30 16 19.1513 8960

16 2 4 40 16 22.2669 30 000

2 12 88 80 81.0568 30 000

2 14 100 96 96.3393 14 400

32 2 4 88 32 45.5338 30 000

Как видно из приведенных в табл. 2 данных, для небольших значений w по отношению к п значения minAD(Т,Т ) и maxAD(Т,Т ) практически не отличаются, что позволяет использовать значение minAD( Т ,Т), полученное в соответствии с Утверждением 4, в качестве оценки меры различия AD(Т,Т). Анализ данных, полученных для произвольных тестовых наборов Т и Тк и частично представленных в табл. 3, показывает тенденцию к близости среднего значения меры различия avAD(T, Тк) к ее минимальному значению minAD(T, Тк). Приведенные практические результаты полностью подтверждают граничные оценки значений для мер различия AD( Т ,Т) и AD(Ti, Тк), сформулированные в виде Утверждений 2-5. Их численные значения в ряде случаев

могут быть использованы в качестве самих мер различия AD(T,Ti) и AD(Tj, Tk), что позволит избежать трудоемких вычислений их точных значений [7].

Выводы

Получены оценки максимальных и минимальных значений мер различия AD(T, T ) и AD(Tj, Tk) для произвольного случая двоичных тестовых наборов T и Tk. Экспериментально подтверждены их корректность и возможность применения в качестве оценочных значений меры различия, сформулированной в Определении 1. Дальнейшие исследования целесообразно расширить в части свойств новой меры отличия для различных сочетаний весов тестовых наборов и их размерности, а также применимости данной меры различия для других прикладных задач.

Список литературы

1. A Survey on Adaptive Random Testing / R. Huang [et al.] // IEEE Transactions on Software Engineering. 2021. Vol. 47, No 10. Р. 2052-2083. DOI: 10.1109/tse.2019.2942921.

2. An Empirical Comparison of Combinatorial Testing, Random Testing and Adaptive Random Testing / Н. Wu [et al.] // IEEE Transactions on Software Engineering. 2020. Vol. 46, No 3. Р. 302-320.

3. Ярмолик, В. Н. Многократные управляемые вероятностные тесты / В. Н. Ярмолик, В. А. Леванцевич, И. Мрозек // Информатика. 2015. № 2. С. 63-76.

4. Sadovsky, M. G. Comparison of Symbol Sequences: no Editing, no Alignment / M. G. Sadovsky // Open Systems & Information Dynamics. 2002. Vol. 9, No 1. Р. 19-36. https://doi.org/10.1023/A:1014278811727._

5. Ярмолик, В. Н. Мера отличия для управляемых вероятностных тестов / В. Н. Ярмолик, Н. А. Шевченко, В. В. Петровская // Доклады БГУИР. 2022. Т. 20, № 6. С. 52-60. http://dx.doi.org/10.35596/1729-7648-2022-20-6-52-60.

6. О мерах сходства расположения компонентов в массивах естественно упорядоченных данных / А. С. Гуменюк [и др.] // Труды СПИИРАН. 2019. Т. 18, № 2. С. 471-503. https://doi.org/10.15622/ sp.18.2.471-503.

7. Ярмолик, В. Н. Мера различия для тестовых наборов при генерировании управляемых вероятностных тестов / В. Н. Ярмолик, В. В. Петровская, И. Мрозек // Информатика. 2022. Т. 19, № 4. С. 7-26.

8. Гайдамакин, Н. А. Мера сходства последовательностей одинаковой размерности / Н. А. Гайдамакин // Математические структуры и моделирование. 2016. Т. 40, № 4. С. 5-16.

References

1. Huang R., Sun W., Xu Y., Chen H., Towey D., Xia X. (2021) A Survey on Adaptive Random Testing. IEEE Transactions on Software Engineering. 47 (10), 2052-2083. DOI: 10.1109/tse.2019.2942921.

2. Wu H., Nie C., Petke Y., Jia Y., Harman M. (2020) An Empirical Comparison of Combinatorial Testing, Random Testing and Adaptive Random Testing. IEEE Transactions on Software Engjneerjng. 46 (3), 302-320.

3. Yarmolik V. N., Levantsevich В. А., Mrozek I. (2015) Multiple Controlled Random Tests. Informatics. (2), 63-76 (in Russian).

4. Sadovsky M. G. (2002) Comparison of Symbol Sequences: no Editing, no Alignment. Open Systems & Information Dynamjcs. 9 (1), 19-36. https://doi.org/10.1023/A:1014278811727._

5. Yarmolik V N., Shauchenka M. A., Petrovskaya V. V. (2022) Distance Measure for Controlled Random Tests. Doklady BGUIR. 20 (6), 52-60. http://dx.doi.org/10.35596/1729-7648-2022-20-6-52-60 (in Russian).

6. Gumenjuk A. S, Skiba A. A., Pozdnichenko N. N., Shpunov S. N. (2019) On the Measures of Similarity of the Arrangement of Components in Arrays of Naturally Ordered Data. Proc. SPIIRAS. 18 (2), 471-503 (in Russian).

7. Yarmolik V. N., Petrovskaya V. V., Mrozek I. (2022) A Measure of the Difference between Test Sets for Generating Controlled Random Tests. Informatics. 19 (4), 7-26 (in Russian).

8. Gaydamakin N. A. (2016) Measures of Similarity Among Finite Sequences. Mathematical Structures and Sjmulation. 40 (4), 5-16 (in Russian).

Вклад авторов

Ярмолик В. Н. предложил меру отличия для управляемых вероятностных тестов. Петровская В. В. участвовала в обобщении результатов и проведении экспериментов. Иванюк А. А. принял участие в анализе результатов и проведении экспериментов.

Authors' contribution

Yarmolik V. N. proposed a distance measure for controlled random tests.

Petrovskaya V. V. took part in the generalization of the results and conduct of experiment.

Ivaniuk A. A. took part in the analysis of the results and experiments.

Сведения об авторах

Ярмолик В. Н., д. т. н., профессор Белорусского государственного университета информатики и радиоэлектроники

Петровская В. В., магистр т. н. Белорусского государственного университета информатики и радиоэлектроники

Иванюк А. А., д. т. н., доцент, профессор кафедры информатики, заведующий совместной учебной лабораторией «СК хайникс мемори солюшнс Восточная Европа» Белорусского государственного университета информатики и радиоэлектроники

Адрес для корреспонденции

220013, Республика Беларусь,

г. Минск, ул. П. Бровки, 6

Белорусский государственный университет

информатики и радиоэлектроники

Тел.: +375 29 769-96-77

E-mail: yarmolik10ru@yahoo.com

Ярмолик Вячеслав Николаевич

Information about the authors

Yarmolik V. N., Dr. of Sci. (Eng.), Professor at the Belarusian State University of Informatics and Radioelectronics

Petrovskaya V. V., M. of Sci. at the Belarusian State University of Informatics and Radioelectronics

Ivaniuk A. A., Dr. of Sci. (Eng.), Associate Professor, Professor at the Computer Science Department, Head of the Joint Educational Laboratory "SK Hynix Memory Solutions Eastern Europe" of the Belarusian State University of Informatics and Radioelectronics

Address for correspondence

220013, Republic of Belarus, Minsk, P. Brovki St., 6 Belarusian State University of Informatics and Radioelectronics Tel.: +375 29 769-96-77 E-mail: yarmolik10ru@yahoo.com Yarmolik Vyacheslav Nikolaevich

i Надоели баннеры? Вы всегда можете отключить рекламу.