БИОФИЗИКА И МЕДИЦИНСКАЯ ФИЗИКА
Использование энтропии в анализе временных рядов (обзор)
А.М. Адельянов,1, * Е.А. Генералов,1 Вэнь Чжэнь,1 Л.В. Яковенко1
1 Московский государственный университет имени М. В. Ломоносова, физический факультет
Россия, 119991, Москва, Ленинские горы, д. 1, стр. 2 (Поступила в редакцию 13.03.2024; после доработки 20.05.2024; подписана в печать 29.05.2024)
Результаты экспериментов в области биофизики часто представлены в виде временных рядов, полученных с небольшим разрешением и не всегда большой длины. В частности, при исследованиях воздействий различных физико-химических факторов на бислойные липидные мембраны обычно измеряются трансмембранные ионные токи и их флуктуации. При этом средние значения и дисперсии токов могут значимо не различаться, и по ним определить характер и степень воздействия затруднительно, поэтому разработка подходов к анализу временных рядов никогда не прекращалась. Попытки использовать энтропию распределений случайных величин при таком анализе предпринимались давно, но в практической работе эти подходы были трудно реализуемы, особенно из-за требований к длине рядов и отсутствию шумов. В последние десятилетия в этой области произошли существенные изменения и предложено множество новых методов анализа временных рядов с использованием различных модификаций энтропии. В связи с этим появилась потребность в некой сводке методов, основанных на расчете энтропии, с указанием их достоинств и недостатков. Этой цели и служит предлагаемый краткий обзор энтропийных методов анализа скалярных временных рядов, который может быть полезен при анализе экспериментальных данных. В обзоре рассмотрены только некоторые из базовых подходов, на которых основаны дальнейшие усовершенствования алгоритмов расчетов. Понятие энтропии иногда вызывает затруднения у студентов, поэтому обзор может быть полезен и для использования в педагогических целях.
PACS: 02.50.-r; 02.50.Fz; 01.50.-i УДК: 51.73; 53.05; 53.088; 57.015 Ключевые слова: временные ряды, энтропия, сложность.
DOI: 10.55959/MSU0579-9392.79.2440701
ВВЕДЕНИЕ
Современные научные исследования требуют новых подходов, в том числе к анализу получаемых данных. По мере развития вычислительных мощностей растет и потребность в методах анализа различных комплексных параметров биологических систем, особенно это актуально для биомедицинских исследований с большими наборами не очень точных данных: анализ передачи сигналов через внутриклеточные сигнальные каскады [1, 2], влияние различных молекул на состояние биологических систем, например организмы [3, 4], а также при дифференцировании нормы от патологии, например при онкологических, кардиологических и нейродегенеративных заболеваниях [5, 6].
Результаты исследований систем различной природы часто представляются в виде временных рядов (ВР) — записей значений какой-либо наблюдаемой величины (сигнала) в зависимости от времени. Такие записи могут быть как дискретными, так и непрерывными, но в последнем случае обычно используется дискретизация с каким-либо постоянным интервалом времени, поэтому далее будут рассмотрены только дискретные ВР. Стационарный
ВР можно рассматривать как отображение некоего состояния системы, его породившей, поэтому исследование ВР в принципе позволяет получить информацию об этой системе. Сам по себе ВР ничего не говорит об устройстве системы, но если существует модель системы с неизвестными параметрами, то анализ ВР позволяет определить по крайней мере число независимых параметров.
Скалярный временной ряд {хг}1^=1 представляет собой массив из N значений наблюдаемой величины х (¿), измеренных с постоянным шагом по времени ¿\Ь в моменты времени ^ = ¿о + (г — 1) где ¿о — момент времени первого измерения, г = 1, 2,... ,М. Обычно анализ ВР связан с решением задач двух типов: идентификация системы, породившей сигнал, и прогноз ее поведения на некоторое время вперед. Под идентификацией понимают оценку каких-либо параметров системы, таких как корреляционная размерность, энтропия, сложность и др. Прогноз имеет целью предсказание будущих значений измеряемого сигнала на основании имеющихся данных, то есть построение аппроксимирующей функции, с помощью которой можно оценить следующее значение измеряемой величины по нескольким предыдущим. Задача прогноза в настоящей статье не рассматривается, основное внимание будет уделено методам оценки стохастичности и сложности ВР.
E-mail: [email protected]
:
При экспериментальных исследованиях нелинейных химических, гидродинамических и прочих систем часто наблюдается непериодическое изменение их параметров, называемое детерминированным хаосом. На глаз его невозможно отличить от чисто стохастического процесса, поэтому были разработаны математические методы, позволяющие провести классификацию поведения таких систем, которая основана на построении соответствующих фазового портрета. Однако экспериментатору обычно не известны дифференциальные уравнения, представляющие собой модель системы, поэтому возникает проблема построения фазового портрета по ограниченным экспериментальным данным. Эта проблема давно решена, но представляется целесообразным в настоящем обзоре дать очень краткое описание использованных при этом подходов.
Состояние системы характеризуется одной точкой в многомерном (п-мерном) фазовом пространстве, которая со временем описывает некую траекторию. Под фазовым портретом понимают множество таких траекторий, полученных для всех возможных начальных условий при фиксированном наборе управляющих параметров. Сложную задачу построения многомерного фазового портрета можно свести к анализу всего одной наблюдаемой переменной с помощью методов, описанных в [7-9]. Суть их сводится к тому, что почти для любой наблюдаемой величины В (Ь) и временной задержки тт-мерный фазовый портрет, построенный с помощью векторов хт (к) = {В (гк) ,в(гк + т) ,...,в(гк + (т -1) т)}, где Ьк = кАЬ, к = 1, 2,..., то, будет иметь такие же свойства (например, спектр показателей Ляпунова), как и построенный по измерениям п независимых переменных, если т > 2п + 1. Такой фазовый портрет является вложением исходного многообразия. Задержку т можно выбирать почти произвольно: например, ее совпадение с периодом в периодическом режиме приведет к вырождению портрета до прямой линии. На практике величину т можно выбрать малой, а затем увеличивать на единицу до тех пор, пока не исчезнут видимые изменения портрета. После построения фазового портрета можно его анализировать разными методами, например построить сечение Пуанкаре, определить максимальный показатель Ляпунова [9], но, поскольку обзор посвящен энтропийным методам, другие подходы здесь рассматриваться не будут.
Энтропийные методы связаны с определением количества и качества информации, получаемой при анализе ВР. Методы определения этих характеристик информации рассматриваются в теории информации, математические основы которой были заложены в работах [10, 11]. Поскольку в них количество информации, необходимое для полного описания исследуемой системы, было отождествлено с уменьшением энтропии распределения вероятных исходов исследования, то в настоящей статье терми-
ны «энтропия» и «информация» будут использованы взаимозаменяемо, в зависимости от контекста.
Энтропия (информационная) распределения вероятностей и энтропия классической термодинамики — это разные понятия. Основное различие между ними состоит в том, используются ли термодинамические характеристики системы (количество тепла, температура и т.д.) или же характеристики распределений случайных величин, относящихся к системе. Во втором случае энтропия — чисто математическое понятие (и не всегда имеет физический смысл), и ее значение относительно, то есть зависит от того, какие именно случайные величины, относящиеся к системе, исследуются. Так, например, энтропия распределения номиналов монет не зависит от других характеристик монет (год выпуска, дефекты и т.п.) [12]. Связь информационной энтропии с термодинамической последовательно рассмотрена в работах [13, 14].
Суть энтропийных подходов к анализу ВР состоит в том, чтобы, определив тем или иным способом энтропию выборок из ВР, получить информацию о свойствах породившей ВР физической системы. Энтропия является функцией распределения вероятностей случайной величины и изменяется при преобразованиях распределений, поэтому, в принципе, можно подобрать такое преобразование, при котором изменения энтропии наиболее чувствительны к исследуемым характеристикам ВР. Энтропии, соответствующие разным способам расчета, получили разные названия: приближенная энтропия, выборочная энтропия, перестановочная энтропия, дисперсионная энтропия и т.д. Некоторые из них в применении к моновариантным ВР кратко рассмотрены ниже, при этом основное внимание уделено перестановочной энтропии и ее модификациям, которые часто используются при анализе ВР различной природы.
1. ЭНТРОПИЯ ШЕННОНА
В 1948 г. К. Шеннон [10, 11] предложил количественную меру информации, основанную на оценке распределения вероятностей {р}=1 возможных ответов (сообщений) на некий хорошо определенный вопрос Ц. В связи с этим важную роль играет нумерация всех возможных ответов и оценка их вероятностей, основанная на имеющихся знаниях X относительно возможных ответов (невозможно оценить количество информации при получении ответа, совершенно не относящегося к вопросу). Хорошо определенный вопрос означает, что вся неопределенность ситуации должна содержаться только в том, какое сообщение будет получено. Функция распределения вероятностей Н X) = Н (р\,... ,рн), которая может служить количественной мерой информации и которую Шеннон назвал энтропией, определяется единственным образом, если на нее наложить четыре ограничения (постулаты Шеннона). Количество ин-
формации в сообщении определяется как разность энтропий за счет изменения знаний о возможных ответах до получения сообщения (X) и после получения (X') : I = Н (Q/X) - Н (Q/X'). Таким образом, энтропия является количественной мерой неопределенности знаний о системе; это информация, которой не хватает до полного знания. Энтропия Шеннона лежит в основе всех рассмотренных ниже методов.
Работа Шеннона преследовала в основном практические цели. Математически строгое изложение и обобщение идей Шеннона на случай конечных вероятностных схем впервые было сделано А.Я. Хинчиным [15, 16], поэтому в теории информации принято использовать формулировки основных понятий и теорем теории информации в его интерпретации. Если полная система событий А\, А2,... ,Аи задана вместе с их вероятностями
Р1,Р2,...,РИ {Рг > 0, £ = Рг = 1) , то говорят, что задана конечная схема
А = ( А1А2 ...Аи Р1Р2 . ..РИ
Со всякой конечной схемой связана неопределенность относительно того, какое событие произойдет, поскольку известны лишь вероятности их исходов. Удобной мерой неопределенности конечной схемы является энтропия Шеннона, определяемая уравнением
N
N
Н (Р1,...,РИ) = -К^2рг1прг = - Рг^аРг,
г=1
г=1
к > О = ^^ = К\оёьр^ ,
где во втором равенстве основание логарифма а может быть любым, но одним и тем же во всех слагаемых (постоянная К связана с выбором этого основания). Энтропия пропорциональна количеству информации, получаемому при реализации конечной схемы 4, аот выбора коэффициента пропорциональности зависит единица измерения количества информации. Так, при К =1 и а = 2 количество информации измеряется в битах.
Эта функция распределения вероятностей определена единственным образом, если выполняются упомянутые выше постулаты Шеннона-Хинчина:
1. Н (р1,...,ри ) непрерывна по всем аргументам;
2. для равномерного распределения щ = -^Уг функция Н (р1,...,ри ) = Н (Ж) монотонно возрастает с увеличением N и максимальна по сравнению с другими распределениями вероятностей; если в конечную схему А (с произвольными Рг) добавлено невозможное событие АИ+1 (ри+1 = 0), то Н (Р1,...,Ри+1) = Н (Р1,...,Ри);
3. если заданы две взаимно независимые конечные схемы А и В с числами событий п и т, то совокупность событий Ак Вь (1 < к < Ж, 1 < I < М) называется объединением схем А и В и образует новую схему АВ с вероятностями событий Рк1 = РкР1, при этом Н (АВ) = Н (А) + Н (В);
4. для зависимых конечных схем А и В вероятность события В1 в схеме В при условии, что в схеме А произошло событие Ак, будет условной вероятностью Чкь = Р (Вь/Ак), поэтому Рк1 = РкЧы; тогда Н (АВ) = Н (А)+^N=1 Рк £¡=1 Чы^ды =
= Н (А) + ^N=1 РкНк (В) = Н (А) + На (В).
В п. 4 последний член в правой части представляет собой математическое ожидание Н (В) в схеме А, то есть это математическое ожидание дополнительной информации при реализации схемы В после получения информации при реализации схемы А, поэтому всегда Н (В) > НА (В).
Энтропия определена только для дискретных случайных величин. При переходе к непрерывным случайным величинам абсолютное значение энтропии, определенное по аналогии с формулой Шеннона с помощью замены суммирования интегрированием и вероятностей на плотность вероятности, оказывается бесконечным. Это видно, например, из второго постулата Шеннона-Хинчина, так как энтропия неограниченно возрастает с увеличением N, которое происходит при предельном переходе от суммирования к интегрированию. Кроме того, возникает неопределенность из-за того, что под знаком логарифма оказывается размерная величина. Однако в этом случае можно ввести так называемую относительную, или дифференциальную энтропию, которая имеет отличные от энтропии Шеннона свойства и в настоящем обзоре рассматриваться не будет.
Если две исходно не взаимодействовавшие системы А и В с числами микросостояний Жа и Жв объединяются в одну общую систему с числом состояний Жа+в , то энтропия такой системы в соответствии с третьим постулатом Шеннона-Хин-чина равна сумме энтропий образовавших ее подсистем: 5 (АВ) = 51 (А) + 51 (В), то есть энтропия пропорциональна числу элементов системы, когда оно велико. Это выполняется, когда подсистемы статистически независимы (или почти независимы), иначе говоря, когда в системах могут существовать только локальные корреляции. (Пространственные и временные корреляции между микроскопическими параметрами состояния возникают за счет взаимодействий подсистем. Если взаимодействия короткодействующие и такие, что время корреляции и длина корреляции очень малы, то они не скажутся на наблюдаемых макроскопических параметрах. Этот случай здесь назван нами локальными корреляциями.) Аддитивность энтропии означает то же самое, что экстенсивность при условии, что Жа+в = ЖаЖв .
Для случайного ВР любая перестановка его членов не приведет к изменениям моментов распределения, имеющих вид ^ г (хг — (х))п, где (х) — среднее значение ряда, п — порядок момента, поэтому статистика не дает сведений об организации ВР.
При анализе случайности ВР важно не просто установить, случаен ряд или нет, но оценить степень случайности. Случайность связана со сложностью: простой ВР имеет очевидную структуру, позволяющую точно предсказать следующие его значения, а при максимальной случайности будущие значения непредсказуемы, то есть у стохастического ряда нет структуры. С этим связана возможность «сжатия» (архивирования) исходной информации, содержащейся в ВР: для максимально случайного ВР сжатие невозможно.
Для расчета энтропии нужно оценить вероятности событий рг, которые на практике обычно определяют по частотам различных исходов, причем в ВР не очень большой длины. Однако это дает смещенную оценку величины энтропии.
1.1. Систематическая ошибка при оценке энтропии по конечной выборке
В биофизических исследованиях очень часто приходится иметь дело со стационарными точечными пуассоновскими процессами (все события независимы друг от друга), поэтому ниже рассмотрена оценка энтропии для такого случая, хотя аналогичная систематическая ошибка возникает и при других распределениях вероятностей случайной величины при частотной оценке вероятностей реализаций [17].
«Эксперимент» состоит в том, что проводятся N измерений случайной величины, значения которой распределены по К интервалам с вероятностями Р = {Р1,Р2,... ,Рк}, тогда в г-м интервале окажутся пг результатов измерений (г = 1, 2,...,К) и их среднее значение будет равно (пг) = Ырг. В соответствии со свойствами распределения Пуассона дисперсия равна среднему значению случайной вели-2
нуляется, а третий дает смещение оценки:
чины: (^(6щ) у = (пг) = Ырг. Определяя частоту события, как обычно, ! = пг/Ы, получим (!г) = рг, = Рг/Ы. Тогда «наивная» оценка энтропии
имеет вид: Н = — ^к=1 /г!п/г. Будем измерять энтропию в битах. Разложение Н в ряд Тэйлора:
Н
Н
21п2
к к
А! г )2
г=1
рг
Н
1
к
2Ы2^ \Ырг
К
(21п2) Ы'
Таким образом, при «наивном» подсчете оценка энтропии всегда меньше точного значения и систематическая ошибка пропорциональна числу возможных значений случайной величины и обратно пропорциональна количеству испытаний [17].
2. СЛОЖНОСТЬ, ЭНТРОПИЯ КОЛМОГОРОВА
Существуют два крайних типа систем: стохастические и детерминированные. Эволюция стохастической системы сопровождается ее случайными переходами между микросостояниями, при этом предсказать, в какое состояния система перейдет, невозможно. Поведение стохастической системы невоспроизводимо. Для неустойчивых сложных нелинейных динамических систем при размерности фазового пространства не менее трех возможно появление странного аттрактора и переход в режим динамического хаоса. Внешне поведение хаотической системы не отличается от стохастического, но оно воспроизводимо.
Для описания сложности хаотического поведения динамической системы Колмогоров, Соломонов и Синай предложили использовать ^-энтропию, которую определяют следующим образом [18].
^-мерное фазовое пространство системы разбивается на ячейки ер с номерами (%1,...,га). Пусть есть аттрактор с траекторией х (Ь). Состояния системы измеряют с интервалом т; если совместная вероятность того, что х (Ь = т) £ %1, ...,х (Ь = ¿т) е га равна р (г1,..., ¿¿), то:
К = — Ит Ит Ит — х тй^оо ат
х Р (г1,...,гс1)1пР (г1,...,га).
к
к
Н= — = — (рг + ! 1о®2 (рг + !
г=1
к
г=1
к
- >", />: - ( 1о&Р! + ^ )
г=1
г=1
1
1 к 1
2 Рг1п2
(5! г)2 +...
После усреднения второй член в правой части об-
К = 0, К ^ то и К = 0 в упорядоченной, стохастической и хаотической системах соответственно. К-энтропия — мера скорости потери информации. Практическое использование К-энтропии затруднительно из-за предельных переходов и необходимости очень больших объемов данных.
Количественная оценка сложности ВР связана с решением некоторых проблем теории динамических систем, статистики и вычислительной математики, таких как оценка сложности турбулентного
1
ч
течения и ее эволюции, выбор более простой модели, описывающей эксперимент, оценка сложности алгоритма. В связи с этим в разных областях исследований возникли разные определения сложности. Наиболее часто используется представление об алгоритмической сложности (по Колмогорову), в которой сложность ВР связана с минимальной длиной бинарной компьютерной программы, которая может его воспроизвести, деленной на размер ВР (вообще говоря, в пределе бесконечного ВР). Однако нет алгоритма, который бы позволил оценить таким образом сложность всех наборов данных, поэтому были предложены другие способы определения сложности.
Алгоритмическая сложность тесно связана с мерой количества информации (на один символ), или плотностью энтропии Шеннона, поэтому более соответствует интуитивным представлениям о сложности. Стохастический ВР «несжимаем», поэтому имеет высокую алгоритмическую сложность, но система, которая его породила, может быть физически очень проста. С точки зрения физики важна сложность не самого ВР, а породившей его системы. Случаи, когда значения ВР полностью предсказуемы, соответствующие малой алгоритмической сложности, и когда они полностью непредсказуемы, соответствующие большой алгоритмической сложности, можно считать результатами измерений характеристик простых систем. Истинно сложные системы находятся между этими крайними случаями, что согласуется, например, с интуитивным представлением о сложности биологической системы и простотой идеального кристалла или стекла. В указанных крайних случаях энтропия либо постоянна, либо растет линейно с увеличением размера системы [19]. В обоих случаях поправки к асимптотическому поведению не увеличиваются при увеличении набора данных. Это дает возможность связать медленное приближение энтропии к асимптотическому пределу со сложностью системы [19, 20].
Из-за трудностей практического применения К-энтропии в случае ВР небольшой длины были предложены сначала приближенная энтропия [21], а затем выборочная энтропия [22], которые в пределе бесконечных ВР совпадают с К-энтропией, то есть тоже могут служить в качестве оценки сложности системы.
3. ПРИБЛИЖЕННАЯ ЭНТРОПИЯ И ВЫБОРОЧНАЯ ЭНТРОПИЯ
Приближенная (АррЕп) и выборочная энтропии (БатрЕп) используются в качестве меры оценки случайности ВР в отсутствие сведений о системе, породившей этот ВР [23]. Этот подход основан на оценке неопределенности относительно возможных наборов данных наблюдений и связан, таким образом, с количеством информации, необходимой для полного их описания. Под неопределенностью понимают то, что возможно, но не известно. Все виды
энтропии были введены в качестве мер неопределенности относительно какого-либо события до того, как оно произошло.
АррЕп вычисляется по следующему алгоритму [21, 23]. Для ряда {х}^ строят т-мерные векторы в пространстве состояний (векторы вложения размерности т):
X (г) = {х (г), х (г + т), ...,х (г + (т — 1) т)} , 1 < г < Ж — тт.
Сходство векторов X (г) и X (п) определяют по расстоянию Чебышева:
а [X (г), X (п)] = ¿г^ =
= П,п (X (г)к — X (з)к 1) =
0<к<(т— 1)
= тах (|х (г + к)— х (п + к)|)
0<к<(т-1)
Доля векторов X (п) на расстоянии не бо-
лее г от X (г) составляет С(т) (г
Т(т)
А1\т\г) М—тт '
где Щ ) (г) — число индексов ], для которых < г, 1 < п < Ж — тт, затем вычисляется среднее значение логарифма этой доли векторов Ф(т) (г) = ^Е^-ЬС^^г). После этого размерность увеличивается на единицу и вычисляется
ф(т+1)
( г) . Приближенная энтропия определяется следующим образом: АррЕп(т, г, т) =Ф(т) (г) — Ф^1) (г).
Выборочная энтропия вычисляется сходным образом, но исключаются сравнения векторов с самими собой [22, 23], из-за которого при вычислении АррЕп происходит смещение в сторону большего сходства векторов. Доля векторов Xm (]) на расстоянии не более г от Xm (г) составляет
Н = ¿М <r,l<j<N- тт, з ± г.
Среднее значение по 1 < г < (Ж — тт) равно
ф(т)и = IV^Е?=7гт4т)(г). Затем размерность увеличивается на единицу и вычисляется (г): т ^ (т + 1) ^ ф^^ (г), после чего выборочная энтропия определяется по формуле:
БатрЕп = -1п ^(^Т^Г-
АррЕп и БатрЕп были использованы для анализа электроэнцефалограмм (ЭЭГ) и магнитоэнцефа-лограмм при болезни Альцгеймера, БатрЕп применяли при анализе вариабельности частоты сердечных сокращений у крыс в разных ситуациях. Оба вида энтропии становятся неопределенными или приводят к неверным результатам при анализе коротких ВР, кроме того, критически зависят от выбора параметра г, поэтому неудобны в практических расчетах. Вычислительная сложность АррЕпи БатрЕп квадратично растет с длиной ВР.
4. ПЕРЕСТАНОВОЧНАЯ ЭНТРОПИЯ И ЕЕ ВАРИАНТЫ
Перестановочная энтропия определяется как энтропия распределения упорядоченных отрезков ВР, которым ставится в соответствие определенный символ перестановки. Однако одно и то же распределение частот перестановок получается для разных абсолютных значений амплитуд ВР, поскольку в алгоритме учитываются только их относительные изменения. Это приводит к потере части исходной информации, содержащейся в ВР. Были предложены многочисленные модификации исходного алгоритма, имевшие целью учесть информацию, содержащуюся в изменениях амплитуд. Однако оценка сложности системы, характеризуемой данным ВР, не обязательно связана с абсолютными значениями амплитуд.
Перестановочная энтропия (РЕ) позволяет быстро количественно оценить неопределенность относительно временной структуры какого-либо ВР, полученного в результате измерений некоторой наблюдаемой величины, характеризующей изучаемую систему. Предложенный алгоритм не учитывает абсолютных значений амплитуд наблюдаемых величин, но только последовательность их относительных значений. При этом, конечно, теряется часть информации, содержащейся в ВР, но тем не менее РЕ во многих случаях позволяет определить, ведет себя система хаотически, стохастически или же закономерно. При увеличении длины ВР для любой хаотической системы РЕ стремится к энтропии Колмогорова-Синая [24, 25].
Суть алгоритма состоит в следующем [26]. Скалярный ВР {хг}1=1 преобразуется в последовательность векторов (вложения размерности т):
Xw (i) i^xi 1 Xi+T , • . ., xi+(w-l)r')
i = 1, 2,. . . ,N — (w — 1) T.
(1)
Обычно используют т = 1 и 3 < и < 7, при этом должно выполняться условие Ы ^ и!. Затем производится сортировка компонент каждого вектора: хн-1)т < хн+(з2-1)т < ■ < -1)т,
где Зк (к = 1,. ..,и) — индекс компоненты вектора после сортировки (ранг). При равенстве компонент их порядок сохраняется: хн+^к1-1)т < хн+(к2-1)т, если Зк1 < зк2. Каждому вектору сопоставляется «символ» или «слово»: X (г) ^ А (г) = = (З1 ,...,Зк1, Зк2, ..., Згг), при этом возможны т! таких слов из т букв. Далее оценивают распределение вероятностей символов: {р1,р2, ...,рк}, к < и! и рассчитывают перестановочную энтропию по Шеннону (например, в битах): Нре (и) = — ^'к=1 рг^2рг. Максимальное значение энтропии Нре (и) = 1og2 (и!) соответствует равномерному распределению: рг = 1/и! и к = и)!. Часто используют нормировку: Нре = Нре (и)/1og2 (и!), при этом 0 < Нре < 1. Для регулярных и хаотических рядов Ишг^оо Нре =0 . Вычислительная сложность РЕ
растет линейно с увеличением числа членов ВР.
В исходном алгоритме распределение случайной величины предполагалось непрерывным, поэтому одинаковые значения компонент векторов должны встречаться редко и практически не должны влиять на результат. Авторы предложили для устранения проблемы равных значений добавлять малое случайное возмущение, но на практике это используется редко, потому что пригодно для непрерывных распределений или измерений с высоким разрешением. Было показано, что в случаях дискретных распределений, низкого разрешения или в исследованиях физиологических ВР — электрокардиограмм (ЭКГ), ЭЭГ и т.п. — исходный алгоритм может приводить к корреляциям, приводящим к ложным выводам [27]. С другой стороны, даже для ВР, полученного от полностью предсказуемой динамической системы, РЕ не обращается в нуль [28]. В связи с этим появились различные модификации и улучшения исходного алгоритма.
4.1. Модифицированная перестановочная энтропия (mPE)
В работе [29] предложено равным компонентам векторов присваивать один и тот же ранг. Так, например, двум векторам X5 (i) = (0.2, 0.5, 0.1, 0.2, 0.7), X5 (j) = (0.2, 0.5, 0.1, 0.24, 0.7) в алгоритме PE соответствовал бы один и тот же символ A (i) = A (j) = (3, 1, 4, 2, 5). Модификация алгоритма: если Xi+(jk1-i)T = xi+(jk2-i)t , а jki < jk2, то обоим значения приписывается jki : A' (i) = (ji,...,jki,jki ,...,jw), то есть получим символы: A' (i) = (3, 1, 1, 2, 5), A' (j) = (3, 1, 4, 2, 5). С помощью частотной оценки определяется распределение вероятностей символов: {p'i,p'2,...,p'k}, к < kw (w), где kw (w) — верхняя граница значений k. Для ее вычисления авторы использовали рекурсивный метод. Полученные значения для некоторых часто используемых значений w приведены в таблице. Значение mPE рассчитывается так же, как и PE: H'PE (w) = a p'j\n pi; нормировка:
h'P = HPe (w)/lnkw (w), 0 < h'pE < 1.
Авторы [29] проанализировали ряды RR-интер-валов в ЭКГ здоровых молодых, здоровых пожилых людей и пациентов с сердечной недостаточностью из открытых баз данных (MIT-BIH Fantasia database; BIDMC congestive heart failure database — входят в PhysioNet database, https://physionet.org) и показали, что PE не позволяет различать ЭКГ в этих группах, в то время как с помощью mPE группы различаются вполне надежно.
К недостаткам mPE относится очень большое значение kw (w) для w > 4, что накладывает ограничение на минимальную длину записи (таблица). Кроме того, mPE не имеет максимального значения для гауссовского белого шума, как это должно было бы быть. Так же, как PE, mPE сильно
зависит от уровня шума в анализируемом сигнале. В связи с этим была предложена «улучшенная» РЕ (1РЕ) [30].
Таблица. Верхние границы значений k для расчетов mPE
W 3 4 5 6 7
к-w 13 73 501 4051 37633
4.2. Улучшенная PE
Алгоритм расчета 1РЕ позволяет до некоторой степени компенсировать указанные выше недостатки и, кроме того, учесть амплитуды сигналов. После построения векторов (1) производят однородную дискретизацию (UQ) первого столбца X (:, 1) матрицы, образованной векторами-строками:
UQ (»)={.
0 xmin < x < xmin + Д,, 1, xmin + Д < x < xmin +
2Д,
L- 1,
+ (L - 1) Д <x <
где хтгп и хтах — минимальное и максимальное значения исследуемого ВР, ¡л — входные данные, Д (хтах хтгп )/Ь, Ь — уровень дискретизации. Величина иЦ — целое число в диапазоне от 0 до Ь—1 — «символ» X (:, 1). Обозначим его Б (:, 1). Для к-го столбца X (:, к), 2 < к < и значение Б (:,к) рассчитывается по формуле:
S (j,k) = S (j, 1) +
x U, к) - X и, 1)
А
1 < З < Ы — (и — 1) т, 2 < к < и.
Строки полученной матрицы рассматриваются как «слова» А (I), 1 < I < Ьг. После этого рассчитывают оценку распределения вероятностей этих слов {р} и нормированное значение 1РЕ:
Hipe (w, т, L) =
-Еi=i Piln Pi
ln Lw
где h < Lw, а ln Lw — максимальное значение Hipe , которое достигается только для равномерного распределения.
Основные отличия IPE от PE в следующем. Во-первых, учитывается информация об амплитудах и их флуктуациях, во-вторых, равным значениям приписываются одинаковые символы, в-третьих, IPE более устойчива по отношению к шуму и последнее — количество возможных «слов» в IPE составляет Lw, а не w!.
Авторы проанализировали влияние параметров на оценки IPE и рекомендуют для большинства практических ситуаций использовать w = 4, т =1,, L = 4. Анализ синтезированных и естественных ВР показал, что IPE существенно превосходит по чувствительности PE и mPE.
4.3. Усредненная PE (Ensemble PE, EPE)
Важным параметром при вычислении РЕ является размерность Wj векторов Xwj (i). Обычно требуется, чтобы выполнялось условие (wmax + 1)! < N, то есть 2 < Wj < wmax. В работе [31] для уменьшения зависимости РЕ от выбора Wj предложено использовать значение РЕ, усредненное по всем допустимым значениям Wj :
Нре (XWj, w
hEPE
= H PE (Xw^Wj)/\og<2 (w
hPE {XWj ,wj)
/0;
1
Авторы на разных примерах показывают, что применение такого подхода уменьшают зависимость результатов расчетов от шума и обычно лучше выявляют различия между ВР.
4.4. Усредненная IPE (EIPE)
В работе [32] в отличие от исходного алгоритма расчета 1РЕ авторы предлагают сначала провести нормировку исходных значений ВР {хг с помощью нормальной функции распределения. При этом новые члены ВР будут иметь следующие значения:
1
Vi =
exp
(* - кУ
2 а2
dt,
(2)
где ¡л и а2 — среднее значение и дисперсия исходного ВР. Затем выбираются ширина окна т и шаг по времени т и строится «фазовое пространство»:
Т (3, :) = [Уз , Уэ+т, ..., У] + (г-1)т] , где Т (3, :) — ]-я строка матрицы и З = 1, 2,..., Ы — (и — 1) т.
Обозначим утгп и утах минимальное и максимальное значения членов ВР. Затем надо выбрать число уровней дискретизации Ь, определить шаг дискретизации Л = (у„Шх — утгп)/Ь и построить равномерную функцию распределения ЦРЕ(и), где
и £ (ymin, утах):
UPF (и)
0 при Vmin < U< Vmin + Д,
1 при Vmin + Д <u< Vmin +
2Д,
L - 1 при Vmax - Д <U < Vma
Таким образом, иРЕ преобразует и в целочисленный символ из диапазона от 0 до Ь — 1. Применив это преобразование к элементам первого столбца Т (:, 1), получим столбец символов Б (:, 1). Для к-го столбца (2 < к < и) используется преобразование:
Б (з, к) = Б (з, 1) + ЦТ (з, к) — Т (з, 1)]/Л\ ,
где 1 < З < [Ы — (и — 1)/т], а обозначает функцию округления вниз к ближайшему целому числу. В результате получается матрица 5, каждая строка которой считается символом (или словом). Для
w
max
max
x
а
вычисления 1РЕ надо определить вероятности этих символов рг. Так как каждый символ содержит т элементов, которые могут принимать Ь различных значений, то полное число символов равно Ь™. 1РЕ вычисляется по формуле Шеннона и нормируется на ЫЬ
Hipe (w, L, т) = pMpi/\nLw.
что, начиная со значения г = 3.57, наблюдается положительная корреляция Е1РЕ с увеличением хаотичности ряда, а при значениях, соответствующих периодическим режимам (в частности, вблизи 3.84), наблюдается резкое уменьшение Е1РЕ. Этот алгоритм также показал несколько лучшие результаты при анализе естественных сигналов, таких как ЭКГ, ЭЭГ, вибрации исправных и неисправных подшипников, а также морских судов.
Многие свойства 1РЕ сильно зависят от величины Ь. Чтобы до некоторой степени избавиться от этой зависимости, авторы предлагают провести усреднение по нескольким значениям Ь:
Heipe(w, т)
1
Lmax
Е
1 = Lmi
Hipe (w,i,T),
где Ьтгп и Ьтах — выбранные минимальное и максимальное значения Ь. При малых значениях Ь увеличивается устойчивость по отношению к шуму, но теряется часть информации, содержащейся в ВР.
Сравнение результатов применения разных видов энтропии (РЕ, взвешенная РЕ, дисперсионная энтропия, которая будет рассмотрена в разд. 4.3, и Е1РЕ) к анализу синтезированных шумовых рядов (белый, розовый и коричневый) при 20 < N < 700, ю = 4, т = 1 и 2 < Ь < 8 показало, что во всех случаях белый шум имеет максимальную энтропию, а коричневый — минимальную, но Е1РЕ позволяет надежно различать вид шума даже при минимальных длинах ВР, когда другие виды энтропии этого делать не могут.
Анализ логистического отображения
хп+1 = гхп (1 — хп) при изменении г от 3.5 до 3.99 с шагом 0.001 и при N = 10000 показал,
4.5. Дисперсионная энтропия (DE)
Среди других видов энтропии хорошую способность к различению типов ВР, устойчивость к шумам, способность к учету амплитуд имеет дисперсионная энтропия [33]. Ее вычисление состоит из следующих этапов.
Значения элементов ряда {xi }= как-либо отображаются на интервал [0, 1], обычно с помощью нормальной кумулятивной функции распределения (2), в результате получается последовательности {yi}===1. Члены yi нового ряда распределяются по c классам — заменяются целыми числами из интервала [1, c], при этом авторы рекомендуют использовать функцию округления: rc (j) = c■ yj +0.5, zc (j) = round(rc (j)), j = 1, 2,...,N, а число классов выбирать из интервала [3,9] так, чтобы cw < N. Для размерности вложения w и временной задержки т строят векторы вложения Zw,c (i) = {zc (i) ,Zc (i + т) ,...,Zc (i + (w - 1) T)}, i = 1, 2 ...,N — (w — 1) т. Каждому вектору Zwc (i) сопоставляется «паттерн дисперсии» uv0v! ...vw-1, при этом vo = Zc (i), vi = Zc (i + т),..., vw-i = zc (i + (w — 1) т). Число таких паттернов равно cw. Затем оценивается вероятность появления каждого паттерна:
Р (l
Number \t \t < N — (w — 1) т , когда Zw,c (i) имеет паттерн uv
■VQVl...V„_1 ,
где Number {■} — функция подсчета числа событий.
Для пояснения последовательности шагов вычислений рассмотрим конкретный пример. Пусть {xi}==1 = (9, 8, 1, 12, 5, —3, 1.5, 8.01, 2.99). После отображения на интервал [0,1] получим {yi}==i = = (0, 82, 0.75, 0.21, 0.94, 0.52, 0.05, 0.24, 0.750.35). Округление при c = 3 дает {zi}==1 = (3, 3, 1, 3, 2, 1, 1, 3, 2). Векторы вложения при т = 1 и w = 2 имеют вид: Z2 з (1) = (3, 3), Z2 ,з (2) = (3, 1), Z2 ,з (3) = (1, 3), .., ' Z2 ,з (8) = (3, 2) и им соответствуют паттерны дисперсии U33, U31, U13,..., U32, а число возможных паттернов (индексов) равно 32 = 9. Поэтому вероятности паттернов будут следующими: р(кц) = g, р(щ2) = 0,
Р (м1з) = \,Р ('W'2i) = g, • • • ,р{иЗЗ) =
Дисперсионная энтропия вычисляется по формуле Шеннона:
DE(X,
w,c,т) =
— Е p(l
_i) lnp(l
N — (w — 1) т
и обычно нормируется на максимальное возможное значение DE (когда все паттерны равновероятны):
NDE(X,w, ^т) =
DispEn (X, w, c, т) In cw
VQVl...Vw_1 ,
В приведенном примере DE « 1.844.
Для реальных ВР отнесение членов ряда к классам с помощью функции округления не всегда однозначно, поэтому в работе [34] предложено заменить функцию округления на некую «нечеткую» (fuzzy) функцию, в результате чего член ВР может быть отнесен к двум классам одновременно и каждому вложению может соответствовать не более 2w паттернов. Это не приводит к увеличению вычислительной сложности алгоритма (как и для DE, она растет линейно с длиной ВР), но позволяет использовать более короткие ВР.
Еще одна модификация DE — кодированная DE
LL
Lmax Lmin
V
VQV1 ...V
(CDE) — предложена в работе [35]. Операция кодирования была использована ранее для улучшения свойств РЕ [36], но другие модификации РЕ давали лучшие результаты. В применении к DE она сводится к дополнительному квадратичному разбиению вложений (г) и также позволяет устранить недостатки использования функции округления. Это осуществляется следующим образом.
Каждому вложению (г), имеющему один
и тот же паттерн дисперсии, сопоставляется вложение Хг (г) исходного ряда, и элементы вложения (г) заменяются на средние значения соответствующих элементов Хг (г). Затем формируется средний паттерн:
(иУ1...Уш ) = { {ХЦ...Ут) , ,..., {хг1...ут)} ,
где (ггу — среднее значение элемента вложе-
ния, а {иЬ1..Лт) — общий паттерн. Так, например, для рассмотренного примера исходные вложения имеют вид Х2 (1) = (9, 8), Х2 (2) = (8, 1), ..., Х2 (8) = (8.01, 2.99). К паттерну и13 относятся вложения %2,з (2) и Z2Iз (7), которым соответствуют вложения Х2 (2) = (8, 1) и Х2 (7) = (1.5, 8.01). Тогда средние значения будут равны (х\2) = 4.75, (г^) = 4.005, то есть средний паттерн {и 13) = = {4.75, 4.005}. В работе [35] предложено сравнивать «неокругленные» значения гс (г) со средним значением и производить разбиение по следующему критерию:
v (i)
2, rc (i) > (z
1, rc (i) = (z
0, rc (i) < (z
Но на самом деле сравнение по этому критерию проводилось со значениями вложений исходного ряда, то есть {и1з) поэлементно сравнивали с Х2 (2) = (8, 1) и Х2 (7) = (1.5, 8.01) и применяли указанный критерий. В нашем случае получим V (2) = (2, 0),
V (7) = (0, 2).
В результате получается вектор (г) =
= {V (г), V (г + т) (г + (и — 1) т)}. Объединив
оба разбиения (на классы и последнее), получим «объединенный» вектор {^г<с (г), (г)}, которому соответствует паттерн иУ1У2,... , при этом число возможных паттернов возрастает до сг • 3г, поскольку в критерии имеются три возможности.
На практике значения V (г) = 1 встречаются очень редко, поэтому без ущерба для точности такие случаи можно не учитывать, что приводит к упрощенному критерию второго разбиения:
'1, Гс (i) > (z 0, Гс (i) < (zv 1...
при этом число возможных паттернов уменьшается до сг • 2г. Расчет упрощенной CDE (SCDE) проводится по обычной схеме: оцениваются вероятности паттернов:
p (uv
Number {uviv
}
затем используется формула Шеннона:
SCDE = -
cw-2w
c
u=i
p (г
I lnp (г
и при необходимости производится нормировка:
NSCDE
SCDE In (cw • 2W)'
V1 ...Vw I i v1 .
Результаты расчетов CDE и SCDE для синтезированных и естественных сигналов (ЭЭГ, вибрации подшипников, шумы морских судов) не менее, чем на 10% превосходят другие виды энтропии (PE, CPE, DE) в точности распознавания, но для расчета SCDE требуется примерно в 3 раза меньше времени, чем для расчета CDE.
ЗАКЛЮЧЕНИЕ
В настоящем кратком обзоре рассмотрены только базовые сведения о возможностях применения энтропийных методов в анализе ВР, которые могут быть интересны экспериментаторам и аналитикам big-data. Основное внимание уделено перестановочной энтропии и ее модификациям, поскольку эти виды энтропии широко используются в различных приложениях. В обзор не вошли многие другие методы, разработанные на основе рассмотренных подходов (пузырьковая, нечеткая, многовариантная, многомасштабная и другие виды энтропии), а также методы с использованием, например, неэкстенсивной энтропии Тсаллиса, хотя они, возможно, могут в некоторых случаях быть более эффективными (см., например, [37-53]).
В целом перестановочная энтропия часто дает хорошие результаты при классификации ВР, особенно достаточно длинных. В случае очень коротких ВР или при необходимости обнаружить кратковременное воздействие каких-либо факторов на систему лучше использовать другие виды энтропии, рассмотренные выше. Обычно для сокращения времени расчетов используют малые значения параметров w и L, но иногда имеет смысл провести дополнительный анализ зависимости результатов расчетов от этих параметров.
Программное обеспечение для всех описанных методов имеется в открытом доступе в Интернете (см., например, [54]).
v1 ... v
v1 ... v
v1 ... v
[1] Генералов Е.А., Левашова Н.Т., Сидорова А.Э. и др. // Биофизика. 62, № 5. 660 (2017). (Generalov E.A., Levashova N.T., Sidorova A.E. et al. // Biophysics. 62, N 5, 717 (2017)).
[2] Gaidin S., Maiorov S., Laryushkin D. et al. // J. Neurochem. 164, № 5. 583 (2023).
[3] КульченкоН.Г., ЯценкоЕ.В. // Экспериментальная и клиническая урология. 11, № 3. 158 (2019).
[4] Генералов Е.А., Симоненко Е.Ю., Кульченко Н.Г., Яковенко Л.В. // Биомедицинская химия. 68, № 6. 403 (2022).
[5] Generalov E., Clarke T., Iddamalgoda L. et al. Systems Biology in Biomarker Development in Cancer Signaling Therapy. Elsevier book. Companion and Complementary Diagnostics: From Biomarker Discovery to Clinical Implementation, 2019.
[6] Kritskaya K.A, FedotovaE.I., Berezhnov A.I. // Biomedicines. 12, N 2, 282 (2024).
[7] Whitney H. // Ann. Math. 37, 645 (1936).
[8] Packard N.H., Crutchfield J.P., Farmer J.D., Shaw R.S. // Phys. Rev. Lett. 45, N 9, 712 (1980).
[9] Roux J.-C., Simoyi R.H., Swinney H.L. // Physica D. 8, 257 (1983).
[10] Shannon C.E. // Bell Syst. Tech. J. 27, N 3. 379 (1948).
[11] Shannon C.E. // 10.1002/j.1538-7305.1948.tb00917.x Bell Syst. Tech. J. 27, N 4. 623 (1948).
[12] Чернявский Д.С., Хазин М.Л. // Краткие сообщения по физике ФИАН. № 10. 39 (2001).
[13] Jaynes E.T. // Phys. Rev. 106, N 4, 620 (1957).
[14] Jaynes E.T. // Phys. Rev. 108, N 2, 171 (1957).
[15] Хинчин А.Я. // УМН. 8, N 3, 3 (1953).
[16] Хинчин А.Я. // УМН. 11, N 1, 17 (1956).
[17] Bialek W.S. Biophysics: searching for principles. Princeton, UK: Princeton University Press, 2012; ISBN 978-0-691-13891-6.
[18] Grassberger P., Procaccia I. // Phys. Rev. A. 28, N 4, 2591 (1983).
[19] Bialek W., Nemenman I., Tishby N. // Neural Comput. 13, 2409 (2001).
[20] Grassberger P. // Int. J. Theor. Phys. 25, 907 (1986). 10.1007/BF00668821
[21] Pincus S.M. // Proc. Natl. Acad. Sci. 88, N 6, 2297 (1991).
[22] Richman J.S., Moorman J.R. // Am. J. Physiol. Heart. Circ. Physiol. 278, N 6, 2039(2000).
[23] Delgado-Bonal A., Marshak A. // Entropy. 21, 541 (2019).
[24] Rosso O.A., Larrondo H.A., Martin M.T. et al. // Phys. Rev. Lett. 99, 154102 (2007).
[25] Keller K., Mangold T., Stolz I., Werner J. // Entropy 19. 134 (2017).
[26] Bandt C, Pompe B. // Phys Rev Lett. 88, 174102 (2002).
[27] Zunino L., Olivares F., Scholkmann F., Rosso O.A. // Phys. Lett. A. 381, N 22, 1883 (2017).
[28] Fouda J.S.A.E., Koepf W. //Commun. Nonlinear Sci. Numer. Simulat. 27, 216 (2015).
[29] Bian C., Qin C., Ma Q.D.Y., Shen Q. // Phys. Rev. E. 85, 021906 (2012). 10.1103/PhysRevE.85.021906
[30] Chen Z., Li Y., Liang H., Yu J. // Complexity. Article ID 1403829 (2019).
[31] Azami H., Sanei S., Rajji T.K. // Knowledge-Based Systems. 256, 109876 (2022). 10.1016/j.knosys.2022.109876
[32] Chen Z., Ma X., Fu J., Li Y. // Entropy. 25, 1175 (2023).
[33] Rostaghi M., Azami H. // IEEE Signal Processing Lett. 23, N 5, 610 (2016). 10.1109/LSP.2016.2542881
[34] Rostaghi M., Khatibi M.M., Ashory M.R., Azami H. // IEEE Transactions on Fuzzy Syst. 30, N 9, 3785 (2022).
[35] Li Y., Ceng B., Tang B. //Nonlinear Dyn. 111, 9327 (2023).
[36] Kang, H., Zhang, X., Zhang, C. // Entropy. 22, N 2. 187 (2020).
[37] Chen W, Wang Zh., Xie H., Yu W. // IEEE Transact. Neural Syst. Rehabilit. Eng. 15, N 2 (2007).
[38] Staniek M., Lehnertz K. // Phys. Rev. Lett. 100, 158101 (2008).
[39] Bose R., Chouhan S. // Phys. Rev. E. 83, 051918 (2011).
[40] Hanel R., Thurnera S., Cell-Mann M. // PNAS. 108, N 16, 6390 (2011).
[41] Lobier M., Siebenhuehner F., Palva S., Palva J.M. // NeuroImage. 85, 853 (2014). 10.1016/j.neuroimage.2013.08.056
[42] Li P., Li K., Liu C. et al. // IEEE Transact. Biomed. Eng. 63, N 11 (2016).
[43] Tempesta P. // Proc. R. Soc. A. 472, 20160143 (2016).
[44] Hsu C.F., Wei S.-Y., Huang H.-P., Hsu L. et al. // Entropy. 19, 550 (2017).
[45] Manis C., Aktaruzzaman M., Sassi R. // IEEE Transact. Biomed. Eng. 64, N 11, 2711 (2017).
[46] Li Y., Cao X., Wang L. // Sensors. 19, 5203 (2019).
[47] Azami H., da Silva L.E.V., Omoto A.C.M., Humeau-Heurtier A. // Signal Processing: Image Commun. 75, 178 (2019).
[48] Qin C., Shang P. // Int. J. Bifurc. Chaos. 31, N 9, 2150128 (2021).
[49] Deka B., Deka D. // Chaos, Solitons and Fractals 158, 112101 (2022).
[50] Jiang X., Yi Y., Wu J. // Front. Phys. 11, 1163767 (2023).
[51] Ji C. // Front. Phys. 11, 1146493 (2023). 10.3389/fphy.2023.1146493
[52] Tsallis C. // J. Stat. Phys., 52, 479 (1988).
[53] Li C., Shang P. // Physica A. 523, 10 (2019). 10.1016/j.physa.2019.01.031
[54] Flood M.W., Crimm B. // PLoS ONE. 16, N 11, e0259448 (2021). www.EntropyHub.xyz.
Using Entropy in Time Series Analysis
A.M. Adelyanov", E.A. Generalov, Weng Chjeng, L.V. Yakovenko
1 Faculty of Physics, Lomonosov Moscow State University Moscow 119991, Russia E-mail: a [email protected]
Results of experiments in the field of biophysics are often presented as time series obtained with low resolution and not always of great length. In particular, in studies of the effects of various physicochemical factors on bilayer lipid membranes, transmembrane ion currents and their fluctuations are usually measured. In this case, the mean values and variances of the currents may not differ significantly, making it difficult to determine the nature and degree of impact based on them. Therefore, the development of approaches to time series analysis has never ceased. Attempts to use the entropy of random variable distributions in such analysis have been made for a long time, but in practical work, these approaches have been difficult to implement, especially due to the requirements for the length of the series and the absence of noise. In recent decades, there have been significant changes in this area, and many new methods of time series analysis using various modifications of entropy have been proposed. In this regard, there is a need for a summary of methods based on entropy calculation, indicating their advantages and disadvantages. This is the goal of the proposed brief review of entropy-based methods for analyzing scalar time series, which can be useful in analyzing experimental data. The review considers only some of the basic approaches on which further algorithmic improvements are based. The concept of entropy sometimes causes difficulties for students, so the review can also be useful for educational purposes.
PACS: 02.50.-r; 02.50.Fz; 01.50.-i Keywords: time series, entropy, complexity. Received 13 March 2024.
English version: Moscow University Physics Bulletin. 2024. 79, No. 4. Pp. 415-425.
Сведения об авторах
1. Адельянов Артем Маратович — ведущий программист; e-mail: [email protected].
2. Генералов Евгений Александрович — канд. физ.-мат. наук, ст. науч. сотрудник; e-mail: [email protected].
3. Вэнь Чжэнь — студент; e-mail: [email protected].
4. Яковенко Леонид Владимирович — доктор физ.-мат. наук, профессор; e-mail: [email protected].