Научная статья на тему 'Алгоритмизация присвоения символов анализируемым участкам экспериментальных кривых'

Алгоритмизация присвоения символов анализируемым участкам экспериментальных кривых Текст научной статьи по специальности «Математика»

CC BY
84
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКСПЕРИМЕНТАЛЬНЫЕ КРИВЫЕ / ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ / КЛАССИФИКАЦИЯ / EXPERIMENTAL CURVES / LINGUISTIC ANALYSIS / CLASSIFICATION

Аннотация научной статьи по математике, автор научной работы — Данилов В. В., Третьяков И. А., Рушечников Я. И.

В статье рассмотрена реализация этапа присвоения выделенным участкам символов, соответствующих различным характерам поведения кривой, лингвистического анализа экспериментальных кривых. Набор присваиваемых символов представляет собой алфавит, в котором компоненты являются кодовыми обозначениями поведения кривой на каждом участке. Поставлена задача составления набора векторов признаков для дальнейшего анализа участков разной длины. Длину участка, идентифицированного алгоритмами сегментации, необходимо учитывать, как одну из важных его характеристик. Существенное отличие длин участков свидетельствует о том, что такие участки необходимо группировать в разные классы. Предложен алгоритм выбора степени отличия для участков разной длины. Различным значениям сдвига соответствуют различные значения степени отличия векторов, а определять к одному ли классу относятся два исследуемых участка экспериментальной кривой нужно в таком их взаимномрасположении, в котором они максимально совпадают по форме. Предложен алгоритм построения опорных участков векторной параметризации, целью которого является формирование векторного пространства признаков, в рамках которого и будет производиться распределение на классы участков анализируемых экспериментальных кривых. В массиве таких опорных участков необходимо наличие отображения разнообразия форм выделенных участков, а задача построения опорных участков переходит в задачу разделения множества участков на k классов. Через конечное число циклов работы данного алгоритма будет достигнута устойчивая классификация и ни один вектор не будет перенесен из одного класса в другой. Количество полученных классов будет соответствовать количеству символов в формируемом алфавите. Полученный в результате классификации алфавит символов будет являться классификатором необычных явлений в ходе анализируемого процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Algorithmization of assignment of symbols to analyzable sites of experimental curves

The article describes the implementation of the stage of assigning symbols to the selected areas, which correspond to different patterns of behavior of a curve, and linguistic analysis of experimental curves. The set of characters assigned is an alphabet, in which the components are code marks for the behavior of the curve in each section. The task is to compile a set of feature vectors for further analysis of sections of different lengths. The length of the section identified by the segmentation algorithms must be considered as one of its important characteristics. The significant difference in the length of the sections suggests that such areas must be grouped into different classes. An algorithm is proposed for selecting the degree of difference for sections of different lengths. Different values of the difference of the vectors correspond to different values of the shift, and it is necessary to determine whether the two studied areas of the experimental curve belong to the same class in such a mutual arrangement in which they coincide in shape as much as possible. An algorithm for constructing reference areas of vector parametrization is proposed, the purpose of which is to form a vector space of features, within which the distribution into classes of analyzed experimental curves will be made. In the array of such reference areas, it is necessary to have a display of the diversity of forms of the selectedareas, and the task of building reference areas goes into the task of dividing the many areas into k classes. After a finite number of cycles of operation of this algorithm, a stable classification will be achieved and no vector will be transferred from one class to another. The number of classes obtained will correspond to the number of characters in the generated alphabet. The resulting alphabet classification of characters will be a classifier of unusual phenomena in the course of the analyzed process.

Текст научной работы на тему «Алгоритмизация присвоения символов анализируемым участкам экспериментальных кривых»

УДК 004.62

ДАНИЛОВ В.В., д.т.н., проф., заведующий кафедрой радиофизики и

инфокоммуникационных технологий (ГОУ ВПО «Донецкий национальный университет») ТРЕТЬЯКОВ И.А., ассистент кафедры радиофизики и инфокоммуникационных

технологий (ГОУ ВПО «Донецкий национальный университет») РУШЕЧНИКОВ Я.И., ассистент кафедры радиофизики и инфокоммуникационных

технологий (ГОУ ВПО «Донецкий национальный университет»)

Алгоритмизация присвоения символов анализируемым участкам экспериментальных кривых

Danilov V., Dr. Sci. (Tech.), Head Department of Radiophysics and Infocommunication Technologies (DonNU)

Tretyakov I., Assistant Lecturer at Department of Radiophysics and Infocommunication Technologies (DonNU)

Rushechnicov Y., Assistant Lecturer at Department at Department of Radiophysics and Infocommunication Technologies (DonNU)

Algorithmization of assignment of symbols to analyzable sites of experimental curves

Введение

Анализ массивов

экспериментальных данных составляет значительную часть различных научных исследований. Один из вариантов представления результатов таких исследований являются

экспериментальные кривые, например, хроматограммы в анализе физико-химических свойств веществ, электро-фонокардиограммы и

электроэнцефалограммы в медицине, спектры колебаний молекул в спектроскопии и т.д. [1-3]. Последовательность участков,

соответствующих различному

характеру поведения кривой, является основной информацией о таких кривых. Представление экспериментальной кривой в виде последовательности некоторых символов, характеризующих изменения в исследуемом процессе, с

целью исследования его структуры, получило название лингвистического подхода к анализу экспериментальных кривых [4,5]. В данном подходе к анализу экспериментальных кривых выделяется три основных этапа:

- выделение и распознавание характерных участков;

- присвоение выделенным участкам символов, соответствующих различным характерам поведения кривой;

- анализа последовательностей полученных символов.

Различные алгоритмы выделения и распознавания характерных участков были исследованы в публикациях [6-8]. В результате данного этапа исследуемая экспериментальная кривая представляет собой набор интервалов с чередованием простых (однородных) и сложных (переходных) участков. Данная статья посвящена этапу присвоения

выделенным участкам символов, соответствующих различным

характерам поведения

экспериментальной кривой. Реализация этого этапа анализа возможна несколькими способами:

1. Для анализа и обработки выбираются только сложные участки, которые характеризуют изменение состояния исследуемого процесса, фоновые возмущения некоторого постоянного состояния, или переход исследуемого процесса из одного состояния в другое.

2. Для анализа и обработки выбираются только простые участки, которые характеризуют фоновое состояние исследуемого процесса.

3. Анализируются и обрабатываются как сложные, так и простые участки.

Во всех данных случаях для составления лингвистического описания кривой необходим процесс присвоения символов каждому из анализируемых участков экспериментальной кривой. В первом случае выбранные участки рассматриваются отдельно. Во втором случае каждый простой участок показывает отдельное состояние процесса, тогда наборы простых участков рассматриваются отдельно, либо фоновые аномалии одного и того же процесса, тогда наборы простых участков рассматриваются как целое. В третьем же случае наборы простых и сложных участков не объединяются, а исследуются отдельно.

Набор присваиваемых символов представляет собой алфавит, в котором компоненты являются кодовыми обозначениями поведения кривой на каждом участке. Для формирования такого алфавита необходимо применять алгоритмы автоматической

классификации, которые будут осуществлять распределение массивов

векторов на классы, количество которых определяется самим алфавитом, и устанавливать критерии, по которым каждый новый вектор будет распределен в тот или иной класс, иными словами - присваивать им конкретные символы.

Постановка задачи

Классификация данных участков зависит от того, чем можно охарактеризовать анализируемые

участки, т.е. их векторами признаков. Простейший вектор признаков - это набор ординат экспериментальной кривой на анализируемом участке

/] = (/1, • • •, // ) , но данный вариант может использоваться только в исключительном случае, когда вектор признаков, характеризующий

исследуемые участки, имеет равную размерность на каждом участке. Например, при использовании алгоритмов сегментации с применением аппроксимации [7], переходные участки могут быть идентифицированы с перекрытием, т.е. шаг А меньше длины участка I. Следовательно, возникает задача составления набора векторов признаков для дальнейшего анализа участков разной длины I.

На рис. 1 показана возможность сравнения исследуемых участков разной длины, на котором:

|г| - заданный фиксированный сдвиг, который должен быть больше, чем тах( I, I.) ;

Т = {1,...,2/. +1} - множество индексов;

Т(г) - подмножество индексов в Т, которым соответствует как минимум один индекс векторов fi или / ;

Т (т) - подмножество индексов в Т, находящиеся в области определения векторов £ и неопределенные значения ;

Т. (т) - подмножество индексов в Т,

находящиеся в области определения векторов £. и неопределенные значения

£.

Т (т) - подмножество,

компенсирующее Т (т) и Т. (т) до

множества Т(т).

Рис. 1. Пример сравнения исследуемых участков, имеющих разную длину

Таким образом, длину участка I, идентифицированного алгоритмами сегментации, необходимо учитывать, как одну из важных его характеристик. Существенное отличие длин участков свидетельствует о том, что такие участки необходимо группировать в разные классы. Исходя из этого, следует, что степень отличия участков необходимо сориентировать на сравнение участков с относительно малыми отличиями по длине.

Введем некоторую степень г(£', £] ), характеризующую

расстояние для любых значений £1, £3 и учитывающую отличие их длин. Используя данную метрику, возможно, классифицировать исследуемые участки в метрическом пространстве. В связи с тем, что в современном мире постоянно возрастает сложность технологических процессов, сложность новых научных теорий и результаты научных исследований в виде

экспериментальных данных содержат десятки и сотни тысяч компонентов, возникает задача перехода от метрического пространства в координатное. Рассмотрим

относительно малое количество из всех участков в метрическом пространстве, для которых построено достаточно большое количество к опорных

(искусственных) участков Л1,..., кк, эвристически характеризующих их форму. Тогда вектор признаков

ё = (ё!,—, ёк ) характеризует форму любого участка /'. В качестве вектора признака принимается вектор его расстояний до опорных участков

= г(/1,•••, Лр ). Такой вектор

признаков ё' учитывает зависимость выбранной степени расстояния в пространстве форм исследуемых участков.

Цель работы

Исходя из вышесказанного, набор опорных участков {к1,..., кк } позволяет осуществить преобразование участков различной длины из метрического пространства X в к-мерное пространство Y, в котором будут применяться алгоритмы автоматической классификации. Поэтому целью данной работы является определение способа задания метрики г{/',/3) для участков с различной длиной и алгоритмизация построения опорных участков

{Л1,., кк} во введенном метрическом пространстве X.

Основная часть

Выбор степени отличия для участков различной длины. Исходя из

целей этапа присвоения символов анализируемым участкам

экспериментальных кривых, степень отличия должна определять

«похожими» участки, соответствующие однородным событиям. Такие однородные события приводят к появлению на экспериментальной кривой изменений приблизительно одинаковой формы. Сравнение форм двух участков необходимо производить методом их наложения друг на друга. При наложении необходимо учитывать время от начала данного события. В связи с этим, вводится некоторый сдвиг г, позволяющий компенсировать неточности этапа сегментации. При этом компоненте / ' вектора / ' будет соответствовать компонента //+т

вектора /]. Учитывая сказанное, алгоритм выбора степени отличия для участков различной длины должен состоять из следующих шагов:

1. Выберем два участка

/' = /,...,/') и г = /,...,/]),

где /' и ] их длины.

2. Центрируем векторы:

-/ 1 1' 1 1] / = 11/ = 0 и /3 = 1 ]// = 0.

Ч 1=1 г=1

3. Выберем фиксированный сдвиг г = тах( /i, /.) .

4. Выберем множество индексов

Т = {1,...,2/у +/} (см. рис.1) и сопоставим из него:

-вектору / ' индексы 5 = /] +1,...,/] +;

-вектору / ] индексы

5 = /. + 1 -г,...21] -г .

5. Степень расстояния р{/',/■' ,г) между векторами / ' и / ] является степенью их отличия на всем множестве

T (г).

Очевидно, что различным значениям сдвига г соответствуют различные значения степени отличия векторов f и fJ. Определять к одному ли классу относятся два исследуемых участка экспериментальной кривой нужно в таком их взаимном расположении, в котором они максимально совпадают по форме. Поэтому в качестве степени отличия участков разной длины следует принять величину r{f', fj ) = min p{f', fj ,г).

г

Алгоритм построения опорных участков векторной параметризации.

Целью построения участков векторной параметризации является формирование векторного пространства признаков, в рамках которого и будет производиться распределение на классы участков анализируемых экспериментальных кривых. Исходя из этого, в массиве таких опорных участков необходимо наличие отображения разнообразия форм выделенных участков. Выберем часть множества векторов,

отображающих разнообразие их форм {f1,..., fn}, fj е X, и выберем количество опорных участков k формируемого пространства векторов

(к>>п). Тогда {h1, 1 = 1,..., к} -множество участков в пространстве X, рассматриваемых как опорные, а критерий, выражающий разнообразие форм векторов множества {ffn} и опорных участков в X будет выбираться из условия минимума

¿(h1,..., hk ):

¿(h1,...,hk) = ]Г min r(h', f])

(1)

]=i

Любой массив {h1,..., hk } зависит

от разделения множества { f1,. , fn} на к непересекающихся классов A1,..., Ak, в которых f] е A', при условии r{h', fj ) = min из всех опорных участков. Следовательно, задача построения опорных участков переходит в задачу разделения множества { f1,. , fn} на к классов, в которой (1) будет параметром качества такого разделения, но с необходимостью его минимизации. Учитывая сказанное, алгоритм построения опорных участков векторной параметризации,

показывающих разнообразие форм

векторов {f1,...,fn} должен состоять из следующих шагов:

1. Выберем несколько к векторов из

множества {f1,., fn} , обозначив их {h1, 1 = 1,., к}.

2. Соотнесем каждому вектору h' подмножество A1 с {f1,..., fn }.

3. Рассчитаем расстояние r{h', fk+1)

от вектора fk+1 до всех векторов h' и определим ближайший, обозначив его h1*.

4. Внесем вектор fk+1 в множество A' и определим вектор (h1 )' (Al ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Рассчитаем расстояние r {h1, fn) от

вектора fn .до всех h1 и определим 1* с самым минимальным расстоянием.

6. Определим класс A'n для вектора

г n 4i*

f n , внесем его в A и осуществим пересчет эталонов изменившихся классов согласно правилу

h'n = (h'n)'(A'n), h1* = (h '*)'( A'*).

7. Векторы Ä1,..., hk, полученные в результате минимизации, принимаются опорными участками векторной

параметризации или же эталонами их классов.

Через конечное число циклов работы данного алгоритма будет достигнута устойчивая классификация,

а именно для любого /] е Л1 расстояние г до эталона своего класса не будет превышать расстояние до других эталонов, что свидетельствует о том, что ни один вектор не будет перенесен из одного класса в другой.

Выводы

В данной работе рассмотрена алгоритмизация присвоения символов анализируемым участкам

экспериментальных кривых. Показана процедура выбора степени отличия для сравнения участков кривых различной длины. Предложен алгоритм

построения опорных участков векторной параметризации для определения эталонов классов. Из сказанного следует, длину участка, идентифицированного алгоритмами сегментации, необходимо учитывать, как одну из важных его характеристик. Существенное отличие длин участков свидетельствует о том, что такие участки необходимо группировать в разные классы. поэтому выбор степени отличия участков сориентирован на сравнение участков с относительно малыми отличиями по длине, а формирование алфавита символов для описания анализируемых участков необходимо производить в два этапа:

- классификация исследуемых участков в одномерном пространстве на небольшое число классов

- классификация исследуемых участков по форме в каждом классе.

Количество полученных классов будет соответствовать количеству символов в формируемом алфавите.

Полученный в результате

классификации алфавит символов будет являться классификатором необычных явлений в ходе анализируемого процесса. В отдельных случаях данный этап лингвистического анализа экспериментальных кривых может являться самостоятельным аппаратом анализа.

Полученный в результате классификации алфавит символов будет являться классификатором необычных явлений в ходе анализируемого процесса. В отдельных случаях данный этап лингвистического анализа экспериментальных кривых может являться самостоятельным аппаратом анализа.

Список литературы:

1. Рослякова А.В., Чупраков П.Г. Сравнительный анализ алгоритмов обнаруженияR-зубца электрокардиосигнала // Вятский медицинский вестник, 2012. №2. С.29-35.

2. Новикова Н.М., Кривцов А.Ю. Распознавание графических файлов электрокардиограммы нейронной сетью // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика, 2012. №19-1 (138). С.

3. Меньшова Ю.В., Юрова И.Ю. Спектр молекулы кислорода в интенсивном лазерном поле // Вестник СПбГУ. Серия 4. Физика. Химия, 2013. №4. С.80-85.

4. Моттль В.В. Алгоритмическая реализация лингвистического подхода к анализу экспериментальных кривых // Автомат. и телемех., 1984. №4. С. 417433.

5. Pavlidis T. Linguistic Analysis of Waveforms // Software Engineering, J.T. Tou (Ed.). Vol.2. -N.Y. 1971. pp. 203-225.

6. Пестунов И.А., Синявский Ю.Н. Алгоритмы кластеризации в задачах сегментации спутниковых изображений // Вестник КемГУ, 2012. №2. С. 110-125.

7. Третьяков И.А., Данилов В.В. Алгоритмы идентификации переходных участков экспериментальных кривых // Материалы международной научно-практической конференции «Социально-гуманитарные и естественно-технические науки и вызовы современности», Ставрополь: АНО ВО СКСИ, 2017. С. 824-828.

8. Вилесов Л. Д., Кузьмин С. А. Алгоритмы сегментации кадров и сжатия видеоинформации для систем видеонаблюдения // ИВД, 2014. №4-1.

9. Данилов В.В., Третьяков И.А., Шалаев А.В., Рушечников Я.И. Алгоритмы идентификации переходных участков экспериментальных кривых с применением аппроксимации// Сборник научных трудов Донецкого института железнодорожного транспорта, 2018. №48. С.19-23.

Аннотации:

В статье рассмотрена реализация этапа присвоения выделенным участкам символов, соответствующих различным характерам поведения кривой, лингвистического анализа экспериментальных кривых. Набор

присваиваемых символов представляет собой алфавит, в котором компоненты являются кодовыми обозначениями поведения кривой на каждом участке. Поставлена задача составления набора векторов признаков для дальнейшего анализа участков разной длины. Длину участка, идентифицированного алгоритмами

сегментации, необходимо учитывать, как одну из важных его характеристик. Существенное отличие длин участков свидетельствует о том, что такие участки необходимо группировать в разные классы. Предложен алгоритм выбора степени отличия для участков разной длины. Различным значениям сдвига соответствуют различные значения степени отличия векторов, а определять к одному ли классу относятся два исследуемых участка экспериментальной кривой нужно в таком их взаимном

расположении, в котором они максимально совпадают по форме. Предложен алгоритм построения опорных участков векторной параметризации, целью которого является формирование векторного пространства признаков, в рамках которого и будет производиться распределение на классы участков анализируемых экспериментальных кривых. В массиве таких опорных участков необходимо наличие отображения разнообразия форм выделенных участков, а задача построения опорных участков переходит в задачу разделения множества участков на к классов. Через конечное число циклов работы данного алгоритма будет достигнута устойчивая классификация и ни один вектор не будет перенесен из одного класса в другой. Количество полученных классов будет соответствовать количеству символов в формируемом алфавите. Полученный в результате классификации алфавит символов будет являться классификатором необычных явлений в ходе анализируемого процесса.

Ключевые слова: экспериментальные кривые, лингвистический анализ,

классификация.

The article describes the implementation of the stage of assigning symbols to the selected areas, which correspond to different patterns of behavior of a curve, and linguistic analysis of experimental curves. The set of characters assigned is an alphabet, in which the components are code marks for the behavior of the curve in each section. The task is to compile a set of feature vectors for further analysis of sections of different lengths. The length of the section identified by the segmentation algorithms must be considered as one of its important characteristics. The significant difference in the length of the sections suggests that such areas must be grouped into different classes. An algorithm is proposed for selecting the degree of difference for sections of different lengths. Different values of the difference of the vectors correspond to different values of the shift, and it is necessary to determine whether the two studied areas of the experimental curve belong to the same class in such a mutual arrangement in which they coincide in shape as much as possible. An algorithm for constructing reference areas of vector parametrization is proposed, the purpose of which is to form a vector space of features, within which the distribution into classes of analyzed experimental curves will be made. In the array of such reference areas, it is necessary to have a display of the diversity of forms of the selected

areas, and the task of building reference areas goes into the task of dividing the many areas into k classes. After a finite number of cycles of operation of this algorithm, a stable classification will be achieved and no vector will be transferred from one class to another. The number of classes obtained will correspond to the number of characters in the УДК 005+65.011.56

generated alphabet. The resulting alphabet classification of characters will be a classifier of unusual phenomena in the course of the analyzed process.

Keywords: experimental curves, linguistic analysis, classification.

САВКОВА Е.О., к.т.н., доцент (ГОУ ВПО «ДонНТУ»), МАТЯХ И.В., аспирант (ГОУ ВПО «ДонНТУ»), МИЛАЯ А.С., бакалавр (ГОУ ВПО «ДонНТУ»)

3D-модель матрицы полезностей для принятия решения в условиях многокритериальности

Savkova E.O., PhD in Technical Sciences, Associate Professor (DNTU), Matyah I.V., graduate student (DNTU), Milaya A.S., bachelor (DNTU)

3D model of the utility matrix for acceptance of solutions in the multi-criteria conditions

Постановка проблемы

В процессе принятия решения руководитель должен

руководствоваться множеством

различных условий, критериев и случайных факторов. Однако большинство методик не дают возможности руководителю посмотреть на задачу со стороны не одного критерия, а сразу нескольких. Ведь руководителю важна не только максимизация прибыли, но и, например, минимизация расходов или

минимизация затраченного времени.

Несомненно, руководитель может воспользоваться уже существующими методами решения

многокритериальных задач. Но эти методы не позволяют рассмотреть каждое альтернативное решение с учетом случайных факторов, влияющих

на оценку альтернативы по каждому отдельному критерию. Поэтому возникла необходимость разработки и исследования возможности

использования 3Б-модели матрицы полезностей для принятия решения в условиях многокритериальности с учетом случайных внешних факторов.

Цель, задачи и актуальность работы

Целью данной статьи является разработка и исследование возможности применения трёхмерной матрицы полезностей для решения

многокритериальных задач в условиях неопределенности.

Задачи:

1. Определить понятие 3Б-модели матрицы полезностей;

2. Сформулировать задачу принятия решения в условиях

i Надоели баннеры? Вы всегда можете отключить рекламу.