Научная статья на тему 'Метод 2D-SSA для обработки гидрологических данных'

Метод 2D-SSA для обработки гидрологических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
203
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИНГУЛЯРНЫЙ СПЕКТРАЛЬНЫЙ АНАЛИЗ / SINGULAR SPECTRAL ANALYSIS / ОБРАБОТКА ДАННЫХ / DATA PROCESSING / ГИДРОЛОГИЧЕСКИЕ ИССЛЕДОВАНИЯ / HYDROLOGICAL STUDIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коротченко Роман Анатольевич, Кошелева Александра Васильевна

Авторами предложено применение метода двухмерного сингулярного спектрального анализа (2D-SSA) для обработки натурных океанологических данных и обоснована целесообразность его применения в гидрологии. Выделены ключевые особенности и достоинства метода и рассмотрена его процедурная последовательность. Описаны этапы декомпозиции и реконструкции, предложена физическая интерпретация результатов. Приведен пример обработки данных натурных измерений, выполненных сотрудниками Тихоокеанского океанологического института (ТОИ ДВО РАН) в Амурском заливе Японского моря, методом 2D-SSA, включающим процедуры фильтрации масштабных составляющих в гидрологических процессах, что позволило более конструктивно подойти к интерпретации результатов наблюдений и обеспечило понимание вкладов различных факторов и взаимного влияния пространственной геометрии течения, вертикальной конвекции и топографии дна.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коротченко Роман Анатольевич, Кошелева Александра Васильевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод 2D-SSA для обработки гидрологических данных»

КОРАБЛЕСТРОЕНИЕ. Физические поля корабля, океана и атмосферы

D0l.org/10.5281/zenodo.1408237 УДК 551.468 551.46.06

Р.А. Коротченко, А.В. Кошелева

КОРОТЧЕНКО РОМАН АНАТОЛЬЕВИЧ - к.т.н., старший научный сотрудник, e-mail: [email protected]

КОШЕЛЕВА АЛЕКСАНДРА ВАСИЛЬЕВНА - научный сотрудник, e-mail: [email protected]

Тихоокеанский океанологический институт им. В.И. Ильичева ДВО РАН Балтийская ул., 43, Владивосток, 690041

Метод 2D-SSA для обработки гидрологических данных

Аннотация: Авторами предложено применение метода двухмерного сингулярного спектрального анализа (2D-SSA) для обработки натурных океанологических данных и обоснована целесообразность его применения в гидрологии. Выделены ключевые особенности и достоинства метода и рассмотрена его процедурная последовательность. Описаны этапы декомпозиции и реконструкции, предложена физическая интерпретация результатов. Приведен пример обработки данных натурных измерений, выполненных сотрудниками Тихоокеанского океанологического института (ТОИ ДВО РАН) в Амурском заливе Японского моря, методом 2D-SSA, включающим процедуры фильтрации масштабных составляющих в гидрологических процессах, что позволило более конструктивно подойти к интерпретации результатов наблюдений и обеспечило понимание вкладов различных факторов и взаимного влияния пространственной геометрии течения, вертикальной конвекции и топографии дна. Ключевые слова: сингулярный спектральный анализ, обработка данных, гидрологические исследования.

Введение

Обработка экспериментальных гидрологических данных с целью удаления погрешностей аппаратуры, фильтрации влияния поверхностного волнения, течения и других факторов в ходе проведения наблюдения является нетривиальной задачей. Наличие хорошей измерительной техники и благоприятной погоды не гарантирует высокого качества натурных измерений, поскольку в реальности невозможно учесть все влияющие факторы. Типичными проявлениями такого влияния являются резкие выбросы в данных, наличие инверсий в значениях температурного градиента, сдвиги по глубине между вертикальными профилями данных, измеренными в той же точке, но в разные моменты времени. В наблюдениях могут отчетливо прослеживаться влияния от поверхностного волнения, течения или дрейфа судна.

При качественном анализе полей гидрологических данных важно представлять вклад и взаимодействие процессов различного уровня - течения, влияния внутренних и поверхностных волн, тепловой конверсии и пр. Понятие энергетического масштаба для отдельных компонентов сложного процесса является естественной характеристикой в анализе данных и должно быть изучено и сопоставлено. В этом плане методы оценки статистических дисперсионных характеристик случайных процессов являются актуальными.

© Коротченко Р.А., Кошелева А.В., 2018

О статье: поступила: 28.04.2018; финансирование: бюджет ТОИ ДВО РАН.

Разложение по эмпирическим ортогональным функциям (EOF) широко известно и хорошо зарекомендовало себя в обработке результатов геофизических и океанологических наблюдений [1, 2, 7]. Тем не менее в океанологической практике EOF-анализа, многомерные разновидности метода встречаются достаточно редко, что не полностью раскрывает широкие возможности подобной обработки данных.

Двумерный сингулярный анализ (2D-SSA) позволяет выполнить декомпозицию исходного поля данных на структуры, упорядоченные по амплитудам собственных значений «мод» - векторов сингулярного разложения [3]. В случае ясной физической интерпретации такого разложения в структуре исходного поля выделяются составляющие, с которыми можно сопоставить различные физические эффекты с целью анализа их масштабного вклада в общее поле. Процедура реконструкции на основе ограниченного набора выделенных в анализе структур позволяет упростить модель данных, выделить важные информационные моды и удалить «шумовые» компоненты.

Иллюстрация применения метода для обработки гидрологических данных, полученных в зимне-весенний период 2011 г. сотрудниками ТОИ ДВО РАН в Амурском заливе Японского моря, позволяет рассмотреть основные принципы и последовательность операций 2D-SSA, а предложенная интерпретация демонстрирует примеры практического применения метода в океанологических наблюдениях.

Идеология метода двумерного сингулярного анализа

Подробности реализации вычислительного алгоритма 2D-SSA представлены в [3, 5]. Цель настоящей работы - обосновать выбор метода 2D-SSA для типичных задач обработки натурных гидрологических данных, описать этапы декомпозиции и реконструкции и предложить физическую интерпретацию результатов. Однако прежде чем перейти к практической части, следует выделить ключевые особенности и достоинства метода и рассмотреть его процедурную последовательность с более общей точки зрения.

В 2D-SSA, как и в других методах на основе EOF-разложения, предполагается, что используемые в процессе анализа базисные функции разложения заданы не изначально (как тригонометрический базис Фурье-разложения), а определяются при анализе статистических характеристик самих данных. Такие функции формируют ортогональный базис разложения и наиболее полно учитывают исследуемые статистические свойства данных. Кроме этого полученный в процессе анализа набор базисных векторов (мод) упорядочен по убыванию вклада в общий максимум вариации. Выполнив разложение поля наблюдений по модам, можно выделить ортогональные составляющие и оценить вклад каждой моды. Группируя моды с близкими по амплитуде собственными значениями, можно ввести понятие масштабности для компонентов разложения. В таком случае проекции исследуемого поля данных на разные группы мод будут значительно отличаться по вкладу в общий максимум вариации. Полезно заметить, что одним из признаков эффективности применения SSA-метода является логарифмическое убывание коэффициентов разложения, обеспечивающее ограничение числа представительных мод и подбор упрощенной модели эффективного описания данных без принципиальной потери нужной информации.

В 2D-SSA разложение двумерного скалярного поля данных по собственным ортогональным функциям приводит к выделению двумерных структур, упорядоченных согласно их дисперсионному вкладу. Их значимость и влияние определяется физической интерпретацией доли вклада в вариацию от каждой такой структуры. При соответствии разложения структурным и энергетическим особенностям исследуемого физического натурного процесса фильтрация модовых составляющих позволяет представить упрощенную модель в виде ограниченного набора значимых структур и «шума», связанного с влиянием технических или неконтролируемых факторов.

Ценным свойством 2D-SSA является возможность выделения двумерного тренда в поле данных. Если в одномерном случае для оценки трендовой составляющей нестационарного ряда обычно используется полиномиальная аппроксимация методом наименьших квадратов (МНК), то в двумерном случае удаление нелинейного тренда требует особой аккуратности, поскольку применение МНК может привести к искажению данных и неверным результатам. Применение 2D-SSA позволяет построить корректную процедуру оценки слабо-выраженного тренда на фоне шумов с помощью выделения первой моды EOF-разложения. Выбор окна усреднения является основным параметром, определяющим гладкость оцениваемого тренда.

Эффективно применение 2D-SSA в задачах интерполяции и восстановления пропущенных данных. Принципы EOF-разложения обеспечивают статистическую обоснованность восполнения данных на более плотной сетке. В группе выделенных главных компонент можно выбирать плавно изменяющиеся (трендовые), периодические и шумовые моды и настраивать процедуру интерполяции согласно задаче.

Вычислительный аспект 2D-SSA состоит из нескольких этапов. На начальном этапе основной задачей является подготовка исходных данных. Большой объем вычислений предполагает использование относительно грубых сеток дискретизации. Кроме этого при значительных колебаниях амплитуды в исходных данных рекомендуется выполнить логарифмирование значений, чтобы в результатах сохранить информацию для малых уровней исследуемого поля и избежать проблем с численной неустойчивостью в расчетах.

Задача первого основного этапа декомпозиции - анализ данных с целью определения статистически устойчивого и упорядоченного ортогонального базиса, выделение основных пространственных структур разложения для поля наблюдений.

Этап декомпозиции заключается в следующем.

1. Пространственные гидрологические данные организуются в виде специальной траекторной матрицы Поле разбивается на сегменты равной площади (с перекрытием сегментов), выполняется усреднение по этим фрагментам, из усредненных значений формируется траекторная матрица Для этого с помощью окна скользящего среднего выполняется отображение двумерной матрицы Г в четырехмерное пространство: элементы поля / попадающие в окно скользящего среднего, приводятся к одному столбцу траекторной матрицы Например, для окна скользящего среднего с п = 2, т = 2 отображение первого сегмента имеет вид

Построенная траекторная матрица приводится к блок-ганкелевой структуре с симметрией блоков относительно главной диагонали.

2. Вычисляется сингулярное разложение:

где {.Яг} - собственные значения, {ОД, {V} - ортонормальные системы левых и правых сингулярных собственных векторов.

Успех всего дальнейшего исследования определяется разумной физической интерпретацией модового разложения. При понимании физического смысла пространственных структур, связанных с модами, следует оценить масштабную шкалу разложения. Для этого рассматриваются амплитудный размах выделенных пространственных структур и собственные значения мод. Зачастую дисперсионный вклад отдельных мод может иметь энергетическую трактовку, иллюстрируя влияние процессов разного масштаба на формирование суммарного

( ( ( Л

■У 11 -У 12

V-/ 21 J 22 У

а

а

поля. Выделяя группы мод с одним порядком амплитудных характеристик собственных значений, можно уточнить построенную гидрофизическую модель для дальнейшего анализа факторов с подобным уровнем влияния на формирование общей структуры, выделить «генеральные» моды (с максимальными собственными значениями), «возмущающие» моды и «шум» (с малыми собственными значениями). Фильтрация «шума» позволяет упростить модель и откорректировать исходные данные, удалив ошибки, связанные с условиями проведения гидрологических наблюдений.

На следующем основном этапе - реконструкции - происходит формирование модели для исходных данных на основе ограниченного набора мод разложения. Для этого выполняется фильтрация - отбор физически значимых составляющих в EOF-разложении и их суммирование с целью восстановления информационной основы поля наблюдений. Эффективность аппроксимации исходного поля с помощью старших мод разложения с наибольшими собственными значениями указывает на адекватность метода анализа физической структуре данных. В такой модели предполагается, что поле данных представлено следующим набором компонентов: гладкой составляющей, осцилляциями разного уровня и «шумами». На практике для этого выполняется суммирование наборов {Ш} с близкими по амплитудам собственными значениями, последующим восстановлением блоковой ганкелевой структуры Ш = Н(Ш) и трансформацией к матрице фильтрованного поля данных наблюдений Г [3]:

В вариантах реконструкции полезно выполнить фильтрацию «шума» и упрощение модельного представления наблюдаемого процесса за счет ограничения числа мод, используемых в разложении. Частичное восстановление модели для групп мод с близкими собственными значениями позволяет выделить разные масштабные составляющие. Это является одним из преимуществ метода SSA - выделять и отдельно рассматривать вклады от «генеральных», «возмущающих» и «шумовых» мод, статистически корректно выделяя влияющие факторы различного порядка. В ряде случаев такая обработка предоставляет ценную информацию для физической интерпретации отдельных факторов, формирующих сложную натурную ситуацию.

В настоящее время для научных и прикладных исследований активно применяется язык программирования R. Алгоритмы, пакеты программ на языке R для SSA и 2D-SSA описаны в [4] и доступны на сайте [5].

Применение 2D-SSA для анализа структурных особенностей

гидрологической динамики Амурского залива Японского моря

Анализируя условия гидродинамического баланса водных масс в Амурском заливе, можно выделить несколько основных факторов, влияющих на циркуляцию. Эти факторы отличаются по своим масштабам и энергетике, одновременно присутствуют в природной среде и согласованы во времени и пространстве. В Амурском заливе, как и во многих достаточно крупных заливах, сила Кориолиса активно продуцирует перенос и перемешивание водных масс (рис. 1). Этот фактор принципиальный, но не единственный, поскольку приток пресной воды из впадающих рек и ветровые нагоны также создают циркуляционный эффект. Важное значение имеют регулярный тепловой поток от дна залива и термохалинная конвекция в зимнее время [6]. Разномасштабность этих процессов позволяет использовать метод SSA для выделения иерархии вкладов от каждого из них при статистическом анализе данных натурных наблюдений.

Исходные данные были получены в результате серии гидрологических зондирований зимой 2011 г. вдоль профиля АВ (рис. 1). На рис. 2,а и рис. 3,а представлены двумерные рас-

пределения температуры и солености в разные моменты времени, характерные для холодного сезона.

Целью 2D-SSA являлось изучение пространственного распределения водных масс с различной температурой и интерпретация результатов с учетом влияния различных факторов. Для представленных полей температуры нами были вычислены 40 старших собственных функций мод сингулярного разложения. Анализ амплитуд собственных значений, их относительного вклада в общую дисперсию позволил ограничиться 7 старшими модами, интерпретируя остальные как «шум». Такое решение обосновано тем, что описываемые младшими модами колебания температуры соответствовали уровню погрешности наблюдений. Реконструкция температурного поля на основе старших 7 мод представлена на рис. 2,б и рис. 3,б. Такая модель позволила выполнить фильтрацию слабых возмущений температуры, присутствующих в исходных данных, и более отчетливо выделить три температурные зоны (серые пунктирные линии). Эти зоны можно интерпретировать следующим образом: 1-я донная, связанная с притоком тепла от дна залива; 2-я восточная, пониженной температуры, связанная с притоком морской воды в залив; 3-я западная область - результат переноса и перемешивания вод залива и речного стока и вытекающих из залива.

Рис. 1. Схема горизонтальной циркуляции воды в Амурском заливе (серые стрелки)

и гидрологический разрез Ав.

Рассмотрим масштабные вклады, описываемые разными модами. На рис. 2,в и рис. 3,в построены поля температур, связанных с главной - 1-й модой ЕОФ-разложения. Величина собственного значения 1 -й моды более чем на 2 порядка превышает остальные собственные значения. Это предполагает ее интерпретацию как основной, достаточно гладкой фоновой структуры, на которую накладываются возмущения от других составляющих. Рассмотренные выше донная, восточная и западная температурные зоны выражены достаточно отчетливо и являются стабильными в течение достаточно длительного периода времени.

Подпространства 2-7 мод могут быть объединены в одну группу согласно соразмерности собственных значений. Построенная для этих мод реконструкция температурного поля (рис. 2,г и 3,г) выделяет пространственные структуры, которые могут быть интерпретированы как возмущения поля температуры за счет термохалинной конвекции и распреснения. Отличающиеся температурой «ядра» на рис. 2,г и рис. 3,г указывают на зоны изменения гидрологических характеристик.

Японское море

42.9°Ы -- п г ----------

131.5°Е 131.6°Е 131.7'Е 131.8°Е 131.9°Е 132°Е

Рис. 2. Поле температур 02.02.2011 и его декомпозиция по старшим модам

сингулярного разложения: а - исходное поле; б - основные компоненты (1-7 моды) с выделенными серым пунктиром устойчивыми температурными областями; в - 1-я мода - базовая, наиболее стабильная часть поля; г - моды 2-7, связанные с конвекцией водных масс.

Рис. 3. Поле температур 14.03.2011 и его декомпозиция по старшим модам

сингулярного разложения: а - исходное поле; б - основные компоненты (1-7 моды) с выделенными серым пунктиром устойчивыми температурными областями; в - 1-я мода - базовая, наиболее стабильная часть поля; г - моды 2-7, связанные с конвекцией водных масс.

Из рис. 2 и рис. 3 также можно сделать вывод о пространственном распределении втекающих в залив и вытекающих из него водных масс. Вдоль восточного берега, практически по всему глубинному профилю, втекает более холодная морская вода, а вытекает - вдоль западного берега - более распресненная, повышенной температуры и прижатая к поверхности. Таким образом, в модели проявляется горизонтальное и вертикальное размежевание протекающих через залив водных масс.

Представленная интерпретация является весьма упрощенной для описания сложных гидрологических процессов в заливе, но достаточно наглядно иллюстрирует возможности метода двухмерного сингулярного анализа в гидрофизических приложениях.

Заключение

Представленные возможности 2D-SSA и демонстрация его применения на натурных данных показывает практичность и информационную содержательность подобной обработки. Применение двумерного EOF-разложения для гидрологических полей обеспечивает фильтрацию сбойных значений, улучшает качество интерполяции и сглаживания данных, дает надежное статистическое усреднение для ограниченного времени измерений в точке. Эффект масштабного разделения вкладов от составляющих в составе сложного процесса позволяет построить упрощенную статистическую модель, корректно удалить шумы, связанные с условиями наблюдений, а реконструкция поля в ограниченной группе мод позволяет выявлять пространственные структурные особенности и оценивать вклад отдельных составляющих согласно их амплитудным масштабам. Понимание соответствия сингулярного разложения сути и иерархии физических процессов является ключом к интерпретации наблюдений в целом.

СПИСОК ЛИТЕРАТУРЫ

1. Глуховский А.Б., Фортус М.И. Оценка статистической надежности эмпирических ортогональных функций // Изв. АН СССР. Физика атмосферы и океана. 1982. Т. 18, № 5. С.451-459.

2. Eisner J.B., Tsonis A.A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. Plenum Press. New York, 1996, 164 p.

3. Golyandina N.E., Usevich K.D., Florinsky I.V. Filtering of Digital Terrain Models by Two Dimensional Singular Spectrum Analysis. International J. of Ecology & Development. 2007(8); F07:81-94.

4. Golyandina N., Korobeynikov A., Shlemov A., Usevich K. Multivariate and 2D Extensions of Singular Spectrum Analysis with the Rssa Package. J. of Statistical Software. 2015(67);2:1-78. URL: http://www.gistatgroup.com/gus/papers.html - 02.03.2018.

5. Lazaryuk A., Kosheleva A., Korotchenko R., Ponomarev V. EOF approach to separate convective transport under ice of Amur Bay. International conference. Fluxes and Structures in Fluids: Physics of Geospheres-2011. Selected papers. Russia, Vladivostok, September 27-30, 2011. M., MAKS Press, 2012,p.71-73.

6. Navarra A., Simoncini V. A Guide to Empirical Orthogonal Functions for Climate Data Analisis. Springer, 2010, 152 p.

THIS ARTICLE IN ENGLISH SEE NEXT PAGE

Physical Fields of Ship, Ocean and Atmosphere

D0l.org/10.5281/zenodo.1408237

Korotchenko R., Kosheleva A.

ROMAN KOROTCHENKO, Candidate of Engineering Sciences, Senior Researcher, e-mail: [email protected]

ALEXANDRA KOSHELEVA, Researcher, e-mail: [email protected] V.I.irichev Pacific Oceanological Institute FEB RAS 43, Baltiyskaya St., Vladivostok, Russia, 690041

2D-SSA approach for hydrological data processing

Abstract: In their article, the authors propose the method of two-dimensional singular spectral analysis (2D-SSA) to be applied to process field oceanographic data and substantiate the feasibility of adopting it in hydrology. The key features and advantages of the method are highlighted and the procedural sequence is considered in it. The stages of decomposition and reconstruction are described and the physical interpretation of the results is presented as well. Provided is an example of processing field measurements carried out by the staff of the POI FEB RAS in the Amur Bay of the Sea of Japan by the 2D-SSA method including the filtration procedures for rated components in hy-drological processes. This offers a more constructive approach to interpreting the observations and provides an understanding of the contributions of various factors and mutual influences of the spatial flow geometry, vertical convection, and bottom topography. Key words: singular spectral analysis, data processing, hydrological studies.

REFERENCES

1. Glukhovskiy A.B., Fortus M.I. Estimation of statistical reliability of empirical orthogonal functions. Izvestiya of the Academy of Sciences of the USSR. Atmospheric and Oceanic Physics, 1982(18);5:451-459.

2. Elsner J.B., Tsonis A.A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. Plenum Press. New York, 1996, 164 p.

3. Golyandina N.E., Usevich K.D., Florinsky I.V. Filtering of Digital Terrain Models by Two Dimensional Singular Spectrum Analysis. International J. of Ecology & Development. 2007(8); F07: 81-94.

4. Golyandina N., Korobeynikov A., Shlemov A., Usevich K. Multivariate and 2D Extensions of Singular Spectrum Analysis with the Rssa Package. J. of Statistical Software. 2015(67);2:1-78. URL: http://www.gistatgroup.com/gus/papers.html - 02.03.2018.

5. Lazaryuk A., Kosheleva A., Korotchenko R., Ponomarev V. EOF approach to separate convective transport under ice of Amur Bay. International conference. Fluxes and Structures in Fluids: Physics of Geospheres-2011. Selected papers. Russia, Vladivostok, September 27-30, 2011. M., MAKS Press, 2012, p. 71-73.

6. Navarra A., Simoncini V. A Guide to Empirical Orthogonal Functions for Climate Data Analisis. Springer, 2010, 152 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.