Научная статья на тему 'Biograph - алгоритм частотного анализа хронобиологических данных'

Biograph - алгоритм частотного анализа хронобиологических данных Текст научной статьи по специальности «Математика»

CC BY
177
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Захарченко А. В., Шабанов Б. М., Антохин А. И., Когель Дм, Жаркова Н. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Biograph - алгоритм частотного анализа хронобиологических данных»

ве методов интеллектуального анализа данных; предложено архитектурное и алгоритмическое решение для построения таких систем.

Алгоритмические задачи, которые необходимо решать при реализации систем фильтрации Интернет-трафика, сводятся к необходимости разработки эффективных моделей представления исходных гипертекстовых данных с учетом их текстового содержания и структуры гиперссылок, а также разработки эффективных методов решения задачи классификации многотемных документов.

Проведены эксперименты по оценке точности и скорости разработанных алгоритмов и оценке производительности системы. Все разработанные модели представления и методы многотемной классификации были экспериментально проверены на эталонных тестовых наборах данных, где показали лучшие результаты по сравнению с традиционными моделями и методами. Также на основе экспериментальных результатов можно сделать вывод, что по производительности данный подход применим, поскольку время разбора, анализа и классификации потока гипертекстовых

данных сопоставимо (а, как правило, и значительно меньше) со временем загрузки ресурсов из Интернета, то есть не вносит значительных дополнительных задержек в работу пользователя.

Список литературы

1. Valentina Glazkova, Vladimir Maslyakov, Igor Mashech-kin and Mikhail Petrovskiy. Internet Traffic Filtering System Based on Data Mining Approach // Proceedings of the First Spring Young Researches' Colloquium on Software Engineering.

2. Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция построения систем анализа и фильтрации Интернет-трафика на основе методов интеллектуального анализа данных //Математические методы распознавания образов: 13-я Всерос. конф. / Сб. докл. - М.: МАКС Пресс, 2007. - С. 494-496.

3. Петровский М.И., Глазкова В.В. Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов. // Вычислительные методы и программирование. - 2007. - №8. - С. 57-69. (www.num-meth.srcc.su/zhur-nal/tom8r207.html).

4. Glazkova V.V., Petrovskiy M.I. Multi-topic text categorization based on ranking approach // Proc. of SYRCoSE 2007. N 1. M: ИСП РАН, 2007. P. 49-55.

5. M.-L. Zhang, Z.-H. Zhou, "A k-nearest neighbor based algorithm for multi-label classification", Proc. of IEEE GrC'05, Beijing, China, 2005, pp. 718-721.

BIOGRAPH - АЛГОРИТМ ЧАСТОТНОГО АНАЛИЗА ХРОНОБИОЛОГИЧЕСКИХ ДАННЫХ

А.В. Захарченко; Б.М. Шабанов, к.т.н., (МСЦ РАН, г. Москва); А.И. Антохин, д.б.н.; Д.М. Когель; Н.А. Жаркова

(Российский государственный медицинский университет, г. Москва)

Одной из основных задач хронобиологии является анализ и сравнение различных биологических ритмов по экспериментальным данным, а часто используемым методом - построение и сравнение графиков зависимости некоторых числовых характеристик биологического процесса от времени. Чаще всего биологические ритмы предполагаются циклическими (в предельном случае - строго периодическими) и синхронизированными с внешними природными ритмами -суточный цикл освещения, годовой цикл смены сезонов и т.п. Поэтому обычно графики биологических ритмов снимаются в течение одного исследуемого периода.

Основными проблемами, затрудняющими анализ хронобиологических данных, являются малый объем статистических выборок и слабая взаимосвязь между отдельными наблюдениями. К сожалению, и то, и другое вытекает из особенностей получения данных о биологических ритмах -во многих случаях с одного подопытного организма можно получить лишь одно значение исследуемого параметра. Кроме того, даже безопасное для подопытного организма взятие анализа редко проходит для него незамеченным. Повтор-

ные измерения через фиксированные интервалы времени могут привести к тому, что исследуемый ритм испытает мощное внешнее воздействие самого процесса исследования, и полученные результаты будут иметь слабое отношение к реально происходящим в природе процессам. В результате обычно получаемые хронобиологические данные имеют такие особенности: все значения получены от различных подопытных организмов; для каждого момента количество измерений невелико (3 -7 значений).

Обычная процедура анализа полученных данных предполагает вычисление среднего значения исследуемого параметра и его дисперсии для каждого промежутка времени, оценку ошибки и доверительных интервалов, а также построение графика изменения данного параметра с течением времени [1]. При этом возникают следующие проблемы.

1. Распределение измеряемых значений чаще всего молчаливо предполагается нормальным. Проверить гипотезу о нормальном распределении статистическими методами невозможно, поскольку ни один критерий не будет работать с тремя-пятью измерениями случайной величины [2].

2. Даже для нормального распределения столь малое количество измерений дает не слишком надежные оценки среднего значения и дисперсии, увеличить же статистический ансамбль обычно не представляется возможным, так что достоверность полученных данных оценивается приблизительно.

3. Построенный график позволяет адекватно оценить составляющие ритма, сравнимые с периодом измерений (например, если график строится для суточного периода, на нем могут быть хорошо заметны суточный и полусуточный ритмы), но более высокочастотные составляющие обычно маскируются. В частности, бывает трудно оценить наличие или отсутствие заметных автоколебаний с периодом в 1-2 часа, которые могли бы быть связаны с работой механизма саморегуляции биологического процесса.

Анализ высокочастотных составляющих биологического ритма

Изначально была поставлена задача оценки высокочастотных составляющих биологических ритмов. Первая версия алгоритма, получившего название biograph, использовала обычный метод построения хронобиологического графика, но затем полученный набор средних значений исследуемого параметра использовался как исходные данные для дискретного преобразования Фурье. На выходе алгоритма получался частотный спектр исследуемого биоритма - набор синусоидальных гармоник, заданных амплитудой и фазовым сдвигом относительно начала отсчета времени, сумма которых являлась периодической функцией, строго проходящей через измеренные во время эксперимента средние значения исследуемого параметра. Количественная оценка влияния отдельных гармоник на общую картину биологического ритма производилась по амплитуде соответствующей компоненты; считалось, что большее влияние оказывают составляющие с большей амплитудой.

Алгоритм biograph был реализован в виде программы под операционной системой ЕгееВ8Б с использованием библиотеки дискретного преобразования Фурье FFTW3. Для расчетов использовались экспериментальные данные, измеренные с интервалом 20 минут, что позволяло выявлять спектральные составляющие с периодом выше 40 минут.

Не претендуя на увеличение статистической достоверности, алгоритм позволил обнаружить в части измеренных биологических ритмов высокочастотные гармоники, сравнимые по амплитуде с суточными и полусуточными составляющими.

Статистический анализ коэффициентов Фурье

При разработке второй версии алгоритма авторы приняли решение отказаться от использова-

ния средних значений измеренных параметров. Вместо этого рассматривался набор всех возможных вариантов построения полного периода по экспериментальным данным (если на периоде N моментов измерения и в каждый момент замеряется k значений, то число вариантов построения полного периода будет равно kN). При слишком большом числе вариантов выбирался случайный набор достаточного объема. Для каждого из вариантов рассчитывалось дискретное преобразование Фурье, и полученные коэффициенты для каждой частоты спектрального разложения рассматривались как измерения комплексной случайной величины. Следует отметить, что каждый из коэффициентов зависит от всех выбранных для расчета значений.

Даже при сравнительно небольших экспериментальных выборках (например, измерения по 3 значения с интервалом 3 часа в течение суток) получающийся набор коэффициентов содержит более 6,5 тысяч вариантов, так что можно вести разговор о статистическом анализе. Вторая версия алгоритма, реализованная в программе biograph 0.2, позволяет проверить статистическую гипотезу о нормальном распределении вычисляемых коэффициентов Фурье, оценить их математические ожидания и дисперсии, а также выяснить, достоверно ли отличие каждого из рассчитанных средних коэффициентов от нуля.

Исходные данные для алгоритма

Исходными данными для алгоритма частотного анализа является таблица экспериментальных значений исследуемого параметра. Указывается (в произвольных единицах) продолжительность периода наблюдений, интервал между последовательными измерениями (он должен быть постоянным на протяжении всего периода эксперимента) и собственно измеренные значения - по одной строке таблицы на каждый временной промежуток. На одной временной сетке может строиться произвольное число графиков, если каждый из параметров измерен в одни и те же моменты.

Для анализа высокочастотных составляющих биоритма необходим интервал между измерениями, не превосходящий половины периода соответствующих гармоник [3], поэтому алгоритм частотного анализа вряд ли имеет смысл применять к наблюдениям с редкими измерениями (менее 8 точек на период). Следует иметь в виду, что при четном числе точек на период наиболее высокочастотная гармоника вычисляется с низкой степенью достоверности по амплитуде и с потерей информации о фазовом сдвиге (чисто действительный коэффициент дискретного преобразования Фурье). Для проверки возможностей алгоритма на реальном материале использовались показатели, замеренные в течение суток, 72 точки на период, по 5 значений на точку.

Применение алгоритма в биологических исследованиях

Разработанные программы biograph 0.1 и Ъю%гарЬ 0.2 использовали для анализа разнопе-риодических колебаний митотического индекса в эпителии крипты тонкой кишки. Из литературных данных [4] известно, что колебания с суточным периодом существенно различаются в зависимости от положения клеток в крипте, то есть в про-лиферативной системе крипты существует пространственно-временная организация. Однако в этих исследованиях не изучался весь спектр раз-ночастотных колебаний митотической активности.

Применение алгоритма позволило детально проанализировать пространственно-временную организацию пролиферативной системы эпителия крипты тонкой кишки и выявить новые важные биологические закономерности. В частности, уда-

лось разграничить влияние на ритмы пролифера-тивной активности внешних водителей ритма (фотопериод, кормление животных) и влияние внутритканевых факторов регуляции процессов. Более подробно полученные результаты и их биологическая интерпретация излагаются в работе [4].

Список литературы

1. Хронобиология и хрономедицина. / Под ред. акад. РАМН Ф.И. Комарова и проф. С.И. Рапопорта. - М.: Триада. -Х. - 2000.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высш. шк., 2000.

3. Котельников. В. А. О пропускной способности "эфира" и проволоки в электросвязи. // Успехи физических наук. - 2006, Вып. 7, Т. 176.

4. Жаркова Н.А., Романов Ю.А., Антохин А.И., Филиппович С.С. Изучение пространственно-временной организации пролиферативной системы эпителия крипт тонкой кишки мышей в случае третьего типа ее временной организации. // Буко-винский мед. Вест. - 2002. - С. 151-155.

ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ОПРЕДЕЛЕНИЯ МИКРОДЕФОРМАЦИЙ ГРУНТОВЫХ ОСНОВАНИЙ ПЛОЩАДОК ПРОМЫШЛЕННЫХ ОБЪЕКТОВ

Н.И. Федунец, д.т.н.; Е.А. Гурьева (Московский государственный горный университет)

В последнее время большое внимание уделяется исследованиям микродеформаций грунтовых оснований площадок промышленных объектов. Эти микродеформации возникают в результате геодинамических процессов, происходящих в земной коре. Особенно важны эти исследования для таких высокотехнологичных объектов, как атомные станции, для которых относительно незначительные деформации грунтового основания промплощадки могут привести к серьезным нарушениям условий безопасной эксплуатации и даже к авариям.

Задача определения микродеформаций грунтовых оснований площадок промышленных объектов наиболее эффективно решается с использованием геодинамического мониторинга, организованного на базе геодезических измерений. Такие измерения выполняются на наблюдательных пунктах (реперах), основания которых закладываются в скальные, полускальные или другие коренные, практически несжимаемые грунты.

Следует отметить, что до настоящего времени при обработке результатов геодезических наблюдений рассматривались временные зависимости показаний каждого установленного на объекте репера в отдельности. Из анализа совокупности таких зависимостей делался вывод о микродеформациях основания объекта.

Суть предлагаемой методики состоит в математическом моделировании совокупности геодезических измерений, выполненных на площадке промышленного объекта, в виде оформляющих геометрических фигур: прямой, плоскости, окружности и эллипса.

С целью выбора оформляющей фигуры для моделирования совокупность геодезических измерений для одного из циклов наблюдений (чаще всего нулевого цикла) визуализируется в виде точек на горизонтальной координатной плоскости ХОУ. Координатами этих точек являются измеренные в выбранном цикле значения Xj и Yj наблюдательных пунктов. Затем в целях наглядности представления соседние точки соединяются отрезками линий в геометрические фигуры на плоскости. При этом возможны три основных типа геометрических фигур: отрезок линии, близкий по форме к отрезку прямой; плоская замкнутая геометрическая фигура, близкая по форме к правильной, то есть к окружности; плоская замкнутая геометрическая фигура неправильной формы.

Вариант дальнейшей обработки результатов геодезических наблюдений выбирается исходя из типа полученной в результате визуализации геометрической фигуры. При этом для первого типа геометрической фигуры применяется моделиро-

i Надоели баннеры? Вы всегда можете отключить рекламу.